资源描述
利用关联数据实现机构知识库的语义扩展方法研究
【摘要】首先,对关联数据的相关技术进展进行研究,并分析其在数字图书馆知识库领域的应用现状,同时结合机构知识库在语义扩展方面的需求,研究利用关联数据实现机构知识库语义扩展的关键技术,形成机构知识库语义扩展的核心方法。其次,以中国科学院机构知识库平台CASIR为例,抽取其可扩展的实体关系并添加约束规则,应用D2RQ开源工具进行RDF化的知识呈现和语义标注,最终将其扩展到DC、FOAF、SKOS、ISWC、Vcard等关联词表及DBpedia Ontology、DBLP Bibliography外部数据源。实验证明,该方法合理可行,为加速国科图实现从基础服务版的机构知识库到语义集成资源版的机构知识库的发展蜕变奠定了基础。
【关键词】关联数据 机构知识库 语义扩展 RDF D2RQ
【分类号】G250.76
Study on the Semantic Expansion of Institutional Repository Based on Linked Data
Wang Sili Zhu Zhongming Yao Xiaona Zheng Lei
(The Lanzhou Branch of the National Science Library ,Chinese Academy of Sciences, Lanzhou 730000,China)
【Abstracts】Firstly, The paper studies the related technology development of the linked data and analyses the application situation of linked data in digital library,then combines with the Institutional repository’s demand to study on the key technology and finally propse the core methd for realizing the Semantic Expansion of Institutional repository based on linked data. Secondly, taking the CASIR for example, the paper extracts the entity relationship of the CASIR and adds some constraints rules to it, then uses the D2RQ to carry out the knowledge representation and semantic annotation as RDF format. Finally ,It can expand the CASIR to DC、FOAF、ISWC、Vcard、DBpedia Ontology、DBLP Bibliography . In fact,the method should lay a good foundation in accelerating the CASIR providing not only basic service but also a real sematic integration sevice with its rationality and feasibility in the future.
【Keywords】Linked data Institutional repository Semantic Expansion RDF D2RQ
目录
1引言 4
1.1 研究背景及意义 4
1.2 研究目标和内容 5
1.3 研究方法和路线 5
2关联数据的相关技术与典型应用案例分析 6
2.1关联数据的产生和发展背景 6
2.2 关联数据的相关技术进展研究 7
2.2.1关联数据的创建、发布、浏览的相关技术和工具 7
2.2.2关联数据的应用、融合、Mashup的相关技术和项目 11
2.3与数字图书馆相关的典型应用案例分析 13
3利用关联数据实现机构知识库的语义扩展方法研究 14
3.1机构知识库语义扩展的需求和关键技术定位 14
3.2应解决的关键问题和解决方案 15
4机构知识库语义扩展模块的设计和实现 17
4.1抽取实体关系和添加关联规则 17
4.2利用D2RQ进行语义标注和关联 19
5 语义扩展模块的运行和应用测试 23
5.1基本运行情况 23
5.2用户测试及反馈的意见 27
6结论 29
参考文献: 32
附件: 33
附件1 iswc.n3 33
1引言
1.1 研究背景及意义
机构知识库(Institutional Repository,IR)[1]是知识开放获取运动的产物,是大学以及科研机构对其知识资产进行有效管理的工具,是机构知识能力建设和服务能力提升的重要机制。当前,随着语义网技术的不断推进和白热化发展,从“面向用户”到“面向机器”,从信息描述到知识呈现,从语义隐含到语义揭示,从以概念为中心到以“概念-关系”为中心,从信息表示到智能推理,面对越来越高的科研需求,传统的机构知识库愈发显得责任重大。
2011年7月,在西班牙的赛博计量学实验室(Cybermetrics Lab)[2]推出的世界开放获取机构知识库的200强排名名单中,整个大中华地区,排名最靠前的是National Taiwan University(国立台湾大学),位于第24位。其次分别是位于第67位的National Cheng Kung University(国立成功大学)、位于第80位的University of Hong Kong(香港大学)、以及位于第89位的National Chiao Tung University(台湾交通大学)。中国大陆的北京大学和清华大学只排到了第109位和第197位。该实验室评价机构知识库影响力的指标主要有4个:
(1)规模(Size)。用Google、Yahoo、Bing Search、Baidu这四大搜索引擎能够索引到的总页数去衡量。
(2)可见度(Visibility)。用从该机构知识库获取到的不同外部链接的总数去衡量。
(3)内容丰富性(Rich Files)。用包含相关学术文献和科研作品的不同格式的文件总数去衡量,主要指Adobe Acrobat (.pdf), Adobe PostScript (.ps), Microsoft Word (.doc) and Microsoft Powerpoint (.ppt).
(4)学术性(Scholar)。将Google Scholar中能搜索到的该机构知识库2006至2010年公开发表的条目总数以及从Scimago SIR中获取到的2004至2008年的全部产出结合在一起去衡量。
这些指标分别占的权重如下,见图1:
图1机构知识库各评价指标所占权重
数据来源:http://www.webometrics.info/about_rank.html
仔细评估这些指标,我们可以发现,指标(3)和(4)基本属于机构知识库自身的硬性条件,需要依靠知识资产的长期积累去提升。而指标(1)和(2)的影响因子一共占到了70%,比例大,权重高,并且是能够通过对现有的机构知识库进行扩展而得以提高。
因而,要想在 “优胜劣汰”的行业竞争法则中占有一席之地,我们必须考虑进行机构知识库的语义扩展,扩大机构知识库的“规模”,提高机构知识库的“可见度”,从根本上拓展和丰富机构知识库的服务方式,加快提高发现内容和传递服务质量的步伐,以确保机构知识库的服务比网络上其他信息提供者更具竞争力,从而更深层次地推动机构知识库的建设和发展应用。
1.2 研究目标和内容
通过对机构知识库和关联数据的初步研究证实,资源发现对机构知识库建设是极其重要的,而关联数据的优越性则为机构知识库的资源发现服务提供了可能的增强途径和方法。中国科学院机构知识库以发展机构知识能力和知识管理能力为目标,能够实现对机构知识资产的收集、长期保存、合理传播利用,这是它自身的优越性。但在语义网的高标准要求下和面对各个研究所以及大学等越来越综合和复杂的信息环境来看,仍迫切需要增强语义扩展,积极建设对知识内容进行捕获、转化、传播、利用和审计的能力。因而围绕这一基本原则和需求,提出了本项目的研究目标和内容:
(1)首先,调研和分析关联数据的发展背景和应用现状,着重掌握并评估其相关技术的进展情况和相关工具的使用方法;同时,对其与数字图书馆知识库领域紧密结合的相关典型应用案例进行透彻分析,探讨机构知识库中数字对象间的知识组织关系,研究利用关联数据实现机构知识库语义扩展的关键技术,为进一步实现机构知识库的语义扩展奠定基础。
(2)其次,以中国科学院研究所机构知识库平台(Chinese Academy Sciences Institutional Repository,CASIR)[3]为例进行试验研究,将上述关键技术转化为具体的可实施的语义扩展方案,抽取CASIR中重要的实体关系并添加约束规则,选择合适的关联数据源或关联词表,利用RDF进行知识呈现和语义标注,最终实现其和外部数据源间的关联。
1.3 研究方法和路线
针对研究目标和内容,本文的研究方法主要有两种:
(1)文献调研法:对关联数据的相关技术进展和典型应用案例进行跟踪调研,研究利用关联数据实现机构知识库的语义扩展的关键技术。
(2)信息系统分析设计法:结合中国科学院机构知识库平台CASIR的语义扩展需求,将其核心的实体关系RDF化,并实现和外部数据源间的关联。
项目具体的实施路线如下,见图2:
文献调研
相关技术进展研究
典型应用案例分析
语义扩展的关键技术和方法
信息系统分析设计
关联数据源
D2R工具
CASIR语义扩展试验
研究报告
图2 项目实施路线
2关联数据的相关技术与典型应用案例分析
2.1关联数据的产生和发展背景
关联数据(Linked Data)的概念最早是在2006年由被誉为互联网之父的Tim Berners-lee提出,并同时发布了关联数据开放的四条基本原则:
(1)使用URI作为任何事物的标识;
(2)使用HTTP URI使任何人都可以访问这些标识;
(3)当有人访问某个标识时,使用(RDF,SPARQL)标准提供有用的信息;
(4)尽可能提供相关的URI,以使人们可以发现更多的事物。
该原则提供了在语义网中使用URI和RDF发布、分享、连接各类数据、信息和知识,部署实例数据和类数据的方法,从而使得人们可以通过HTTP协议揭示并获取这些数据。具体来说,RDF对资源的表达通过一系列的三元组来实现,每个三元组由主语(Subject)、谓词(Predicate)和对象(Object)三个部分组成,构成一个声明。主语是URI所标识的资源,实例对象可以是一个字符串,如字母、时间、数字等,也可以是一个URI,或是与主语有关的其他资源的标识符,即RDF链接(RDF Link)。谓词表明了主语和对象之间的关系,谓词也可以是URI,比如来自某一词表或URI集合。RDF链接不仅可以链接同一数据源中的资源,还可以与其他数据源链接,这些数据源可能是两个处于不同地理位置的机构所维护的数据库,也可能是一个机构内的无法在数据层面上进行互操作的不同系统,最终使得用户能跟随RDF链接浏览整个数据Web。因此,RDF链接是数据Web的基础,它将独立的资源编织成数据Web,通过数据Web,关联数据浏览器或搜索引擎的网络爬虫能够遍历整个网络。它与普通网页间的URL链接最大的不同之处就在于,它强调通过建立已有信息的语义标注和实现数据之间的相互关联,进而形成有益于人机理解的语境信息,为最终构建并实现机器可读到机器可理解的语义网奠定了坚实的基础。关联数据为能够图书馆、高校和学术项目提供更强的跨界搜索和发现数字信息的能力,已成为信息系统、计算机科学、图书情报学甚至是生物医学、社会科学等诸多学科领域研究的热点,被人们视为语义网数据网络技术的核心和关键。
2.2 关联数据的相关技术进展研究
2.2.1关联数据的创建、发布、浏览的相关技术和工具
早期国内外对关联数据的研究主要集中在如何将不同格式的非语义数据类型转换成关联数据即RDF三元组格式进行存储、发布和浏览的问题上。研究的领域一般是和人们生活密切相关的社会公共领域及基础网络信息服务领域。通常需要考虑已有数据的规模、数据的格式、存储的模式、更新的频率等去设计实际的转换方案。一般主要有以下几种方式:
(1)直接创建和发布静态的RDF文件。这种方式比较简单,一般多依赖于用户或兴趣团体手工创建或者使用较为简单的软件进行转换输出。一般只需按照软件的提示进行操作,有的时候可能需要为非信息资源对象设置相应的URI,配置标准的多用途互联网邮件扩展MIME(Multipurpose Internet Mail Extensions)的类型。通常适合数据量较少、对数据规范要求不太严格、不占用较大的服务器空间、只需简单存储或可将较大的文件拆分存储和发布、也不需要经常更新的情况。
最常见的应用就是发布个人的FOAF文件或者RDF词表等。如FOAF-a-matic[4]和FOAFaMaticMark2[5]就是两款简单的创建个人FOAF文件的应用程式,前者是基于JavaScript的普通网页格式,后者是基于桌面工具的应用模式。用户只需要按照给定的项填写自己的名字、邮箱地址以及所认识朋友的名字、邮箱地址或个人主页等,即可快速地创建一个关于自己的FOAF档案,然后通过本地的服务器直接进行发布。也可以使用FOAF公布栏(FOAF Bulletin Board)功能将FOAF档案加入到网页当中,通过FOAFbot进行索引以便用户查询。如果用普通的浏览器去浏览,会直接下载到该foaf.rdf文件,需要用Dreamweaver或者相关的软件程序去打开。如果用语义浏览器或专门的RDF浏览器去浏览,则可以对该RDF文件中可访问的三元组进行连续性的可视化的探查。目前可选用的浏览器主要有Tabluator Extension for Firefox[6]、OpenLink的RDF浏览器[7]和Disco[8]等。以Disco为例,它主要是以一种基于表的布局样式来显示每个三元组的来源图从而提供对来源信息的访问,详细情况会显示在Disco右侧的sources列,见图3。
图3 Disco浏览器基本界面
图片来源:http://www4.wiwiss.fu-berlin.de/bizer/ng4j/disco/
(2)将其他类型的数据转换为RDF格式进行存储。如将PDF、Word、Visio、CSV、Excel、BibTex等传统格式的数据转换成RDF格式,可借助于一些RDF化的工具,术语统称为RDFizer。该方法适合于数据格式严格规范、数据量较大但可拆分、数据存储模式相对简单的情况,借助工具能够进行批量转换,减少人工创建所花费的开销,提高转换的效率和准确率。常用的RDFizer主要有以下几种,下载地址见表1:
表1 RDF格式转换工具
工具名称
下载站点
Aperature
Javadoc RDFizer
http://simile.mit.edu/wiki/Javadoc RDFizer/
RDF123
http://rdf123.umbc.edu/
Torrent2RDF
http://www.inf.unideb.hu/~jeszy/rdfizers/torrent2rdf-0.3.zip
Filckurl
http://librdf.org/flickcrl/
①Aperature。它是一个即装即用(Out-of-the-box)式的爬虫系统框架,包括iCal、IMAP和文件系统等。它主要用于在多种格式的数据之上进行爬行、抽取和索引等操作,目前支持JPEG、MP3、PDF、Word以及Visio文档等超过20类信息的抽取,并可以帮助科研人员将相应的数据和元数据转换为RDF格式。
②Javadoc RDFizer。该项目由MIT的Simile团队开发,建立了一个doclet程序,对外提供了可调用的doclet API,可以将任何与javadoc兼容的数据格式转换为RDF格式。
③RDF123。该工具是由美国的马兰里大学研究开发,主要用于处理简单电子表格信息,如将那些使用HTML制表标签的文件和使用逗号分隔的CSV格式的文件的数据进行处理,最后以RDF格式输出。
④Torrent2RDF。该软件工具采用java语言编写,可以读取torrent文件或Torrent URI并以RDF格式抽取其相应信息并输出。该软件采用了GNU GPL许可协议,开发人员可以根据自己的需要对其进行灵活的扩展和进行二次开发。
⑤Flickcurl。它是Dave Beckett开源软件开发小组基于C语言实现的一个小型转换工具,主要用于将Flickr数据,如照片元数据、标签和位置等转换为RDF格式。
目前,Open Linked Data项目已经使超过20亿条传统网页上的数据,包括维基百科、图书馆MARC目录等半自动或者自动地转换成了关联数据。世界著名的大型媒体公司,如BBC,纽约时报,也已经把他们的海量数据转换成了关联数据提供了开放下载功能。英国、美国、奥地利、新西兰、挪威等国都已经率先开始筹备政府信息语义网的相关建设工作,目标是把主要的政府信息发布成关联数据,并试图建立起一个规范的可以重用数据的通用协议。
(3)扩展已有API抓取和关联RDF格式的数据。该技术方法通常适合数据量多,数据格式复杂,数据流通性比较快捷的一些项目,主要是搜索引擎或者门户型网站平台等。如Google and Google Base,eBay,Yahoo,Amazon等主流应用平台一般都有自己的API,提供了多样化的查询、检索接口以及多种格式的返回结果(如XML、JSON或Atom)等,造成了一般数据浏览器访问的困难和搜索引擎抓取数据的不便。而利用关联数据可以对这些已有的API进行扩展,并为一些非信息资源分配一定的URI,当以Application/RDF+XML格式进行查询请求时,可以获取到RDF格式的结果数据,以便机器进行自动处理。同时可以通过解析抓取到的RDF中的URI关联到其他外部数据源的数据。目前,像Google、Yahoo等主流搜索引擎等已经能够抓取关联数据,利用关联数据丰富其检索结果和服务。关联数据的应用还有助于增加政府的透明度。现在已经可以看到Data.gov网站[9]以关联数据形式整合和可视化政府数据,为公众提供服务。GovWILD[10]是Hasso Plattner研究院和IBM的Almaden实验室合作开发的项目,它集成了政治家、政党、政府机构、公司和工业领导人等开放的政府数据,利用关联数据对其进行可视化链接和显示,以揭示并反映隐藏在政府、企业和政治家背后的潜在的利益关系和社交网络。
(4)将关系数据库公开为RDF接口。语义web的主要驱动力之一就是如何将web上的海量关系数据库信息以计算机可处理的方式进行表达。因为,目前关系数据库(RDB)是语义web最大的数据源之一,大多数网站都习惯于使用关系数据库来存储数据。而RDF和OWL都适用于对基于实体-关系(ER)模型的关系数据库中所表达的信息进行建模。目前,已经有多种工具可以用于将关系数据库中的数据公开为虚拟RDF视图,从而作为一个SPARQL端点被用户浏览和访问,并能够进行一定的查询和推理。详细见下表2:
表2 将关系数据库公开为RDF接口的工具
工具名称
下载站点
D2RQ
http://www4.wiwiss.fu-berlin.de/bizer/d2rq/
SquirrelRDF
DB2RDF
Virtuoso
Joseki
http://www.joseki.org/
其中最常用的是D2RQ工具,通过添加一定的约束规则,可以生成和构造一个映射文件,从而将关系数据库中的表和列映射到本体的类和属性上,本项目就是基于D2RQ工具进行开发,将在后面的实验模块对D2RQ作详细的介绍。SquirrelRDF工具主要是通过创建轻量级目录访问协议LDAP(Lightweight Directory Access Protocol)模式和RDF之间的映射,把相应的关系数据库公开以进行SPARQL查询。DB2RDF是一个基于java语言开发,遵循了GPL许可协议的小型转换工具,一般用于将本地的关系数据库转换为可进行SPARQL查询测试的桌面程序。具体应用时,需要使用java -jar "DB2RDF.jar"命令,启动程序,在数据量较大的时候,程序运行十分缓慢,因而并不适用于进行服务器端的开发,见图4。Virtuoso是由Openlink软件公司开发的应用程序,它可以处理XML、RDF、ODB和关系数据库存储,以及web服务和应用程序服务器。其中DBpedia知识库的SPARQL端点,就是由Virtuoso提供的,见图5。Joseki是由开发Jena语义web框架的惠普实验室开发的。Joseki构建于Jena的多语言查询引擎ARQ之上,同时支持ARQ、RDQL以及SPARQL等多种查询语言,被认为是目前托管SPARQL端点的最为快捷的方式。
这些工具虽然在具体应用时各有侧重点,但都提供了通用的机制,仅仅需要修改和进行一些配置就可以投入使用,使得将关系数据库快速公开为一个RDF知识库的过程变得相对简单和可行。但对于数据模式比较复杂或者数据模式没有正确定义,亦或者数据库中含有不一致性数据的关系数据库,在将其进行处理并转换为RDF的过程中需要根据实际情况加入额外的处理步骤。
图4 DB2RDF工具界面
图5 DBpedia的SPARQL端点
图片来源于:http://dbpedia.org/sparql
2.2.2关联数据的应用、融合、Mashup的相关技术和项目
对关联数据的创建、发布、浏览的相关研究是对关联数据自身基础技术的研究,而如今,随着互联网上关联数据的不断增加,有关的研究已经开始扩展到利用关联数据实现数据网络和合作技术即数据融合技术、语义Web嵌入到个人桌面环境的嵌入技术、Mashup主动服务技术、本体的重组技术、语义自动问答技术、语义搜索引擎技术等方面。同时,关联数据的应用领域也扩展到了化学、生物、医学、教育、科研等领域。对关联数据的应用、融合、Mashup技术的研究是关联数据技术研究提升的一个更高的层次,也是关联数据发展的必然结果。目前,国内外在这一技术领域开展了很多探索性的前沿研究项目,代表性的主要有以下几个:
(1)OREChem项目[11]。该项目是eScience下关联数据在化学领域的代表性应用,是由化学学者和信息科学家合作开发和实施的。它致力于研究和部署基础设施、服务和应用去促使学术资料在化学界传播的新模式的产生。项目的主要研究内容是开发一个核心数据模型或本体去描述和标示化学科研实体以及它们之间的相互关系,然后根据该数据模型将已有的化学数据关联扩展到各种外部化学数据源,期望建立不同数据提供者之间的联系。最终创建一个化学数据社会网络,从而增强化学数据的结构化检索。
(2)Bio2RDF项目[12]。该项目主要运用了Sesame的开源三元组存储技术和OWL本体,将一些来自于公共生物学知识库如Kegg、PDB、MGI、HGNC、NCBI的文档可以有效地以一个唯一的URI形式http://bio2rdf.org/namespace:id转换为RDF格式,构建了一个生物学数据和知识组织的Mashup系统。
(3)Linking Open Drug data项目[13]。该项目的目标是建立一个开放的医药数据自动问答系统(LODD),主要是利用关联数据把来自不同数据源的医药数据关联起来,在此基础上回答一些相关的医学和商业的问题。目前该数据集含有超过8万个RDF三元组以及37万个RDF内部链接,见图6。
图6 LODD关联数据集
图片来源于:http://www.w3.org/wiki/HCLSIG/LODD
(4)JISC的相关项目[14]。JISC(Joint Information Systems Committee)是英国致力于研究信息和数字化技术在教育和科研领域应用的专业团队。目前,该团队的关键资源发现活动包含了元数据自动生成、信息抽取、文本标注、基于标签的语义资源发现等21个方案、85个项目、5项服务。SemTech项目就是其中之一,目标是在将各个高等教育机构之间的教育、教学资料和课程资料发布为关联数据进行共享,并构建教育类本体, 实现基于本体的数据分析和推理应用。CheTA是一个化学文本标注系统,该项目整合了剑桥大学的文本挖掘工具OSCAR和U-Compare的工作流程,期望增加化学知识到世界最大的支持公共互操作采集的文本挖掘工具中去。目前,基于UCC和RSC的研究和整合已经完成,项目下一步将会实现不同类型和出处的化学文档的索引功能,并对系统做出常规的科学评估,期望借助真实世界用户对元数据的需求研究以及所抽取的元数据实用性之间的对比研究而发展成为一个严格的标注研究评估框架。该系统最终会同时支持人工和机器的自动索引。目前该应用系统利用关联数据公开了部分信息源,并提供了专业的维护,自动和可持续的文本挖掘服务,将会很大程度上的增强我们的资源发现服务。
(5)语义搜索引擎项目。目前,关联数据在科研领域的应用主要是利用关联数据扩展已有数据源,填充和构建本体模型,最终实现语义搜索和查询。因而,语义搜索引擎的研究便首当其冲,成为专家和科研学者研究的热点之一。根据服务对象的不同,语义搜索引擎一般又可分为两种。其一是,面向用户的关联数据搜索引擎,如Falcons[15]、SWSE[16]、Arnetminer[17]、Yovisto[18]等,为用户提供基于关键词的检索服务,不仅返回相关的检索结果链接,还提供相关实体的概况。Falcons语义搜索引擎是中国东南大学开发的,提供对象、概念及文档的语索,它主要关联了DBpedia知识库的内容。Arnetminer是清华KEG实验室研制的关于学术研究网络的搜索和挖掘引擎,它使用了语义Web本体技术,扩展了FOAF,主要提供研究人员及其出版物的搜索,其中的数据主要来自DBLP(Digital Bibliography & Library Project)数据源。具体包括如下功能:检索学术研究人员或特定领域的专家,获得人员的详细情况和出版物;检索会议或出版物,获得更为详细的信息;检索两个研究人员之间的联系,如两个教授之间的可能联系路线,根据两个学术机构之间的路径长短进行联系加权。Yovisto是关于学术报告和会议视频的搜索引擎。它提供基于内容的演讲录音搜索,可以有效访问超过6200个来自于世界各地的大学和科研机构的演讲录音。Yovisto通过关联数据丰富了搜索引擎的检索结果,来改善用户的使用体验,将Yovisto的内容与关联数据网连接起来,将外部的其他信息纳入到Yovisto中,同时还通过外部信息交叉连接再回到Yovisto自己的内容中。其二是,面向应用的关联数据索引引擎,如Sindice[19]、Swoogle[20]、Waston[21]等,提供关联数据的API接口,利用接口可以对包括实例数据的RDF文档进行访问。Swoogle和Waston提供本体的发现服务,返回与查询相关的概念。Sindice既支持用户的关键词检索服务,也支持机器的自动查询与结果分析利用,它由世界上最大的语义Web研究机构DERI (Digital Enterprise Research Institute)进行研制,对关联数据进行监测、采集、存储和整合。
总之,围绕关联数据世界各国都竞相展开了相关的研究,并促成了一系列相当前沿的国际会议。如LDOW、DC2009、ALA2009、ISWC2009、AAAI2010、ISWC2010、ISWC2011等国际会议都对关联数据的相关技术进行了研讨交流,研究内容涉及关联数据的出版、发布、浏览、的基础问题以及关联数据的应用架构、关联算法、语义互操作、如何与web数据进行合作和融合、如何与人工智能进行交互等高级应用层的问题。2011年3月,Andrew W.Mellon基金更是先后出资49500美元和50000美元分别赞助了美国图书馆信息资源委员会(CLIR)[22]和斯坦福大学进行关联数据的项目研究,主要通过研究关联数据的标准规范和实际需求,并在技术层面设计一个跨国、跨机构的原型系统以证明关联数据可以改善资源发现和资源导航的效果。
2.3与数字图书馆相关的典型应用案例分析
在过去的几年里,数字图书馆机构知识库主要通过主题标目和机读编目格式标准MARC(MAchine-Readable Cataloging)的记录数据去实现资源的发现服务,但浏览和精炼结果的深度具有相当大的局限性。传统的机构知识库数据结构是基于MARC的一维线性组织模式。MARC的优势在于结构化程度高,通过代码化的字段和子字段置标书目的内容特征和外在特征。缺点在于描述语言的通用性和语义性差,只有元数据描述,缺少从语义到语法结构到模型及著录规范和算法的完整体系。而一维和线性的组织方式,是以某一属性特征作为索引点和检索点,不区分信息对象的实体层次和相互的关联关系,在实际应用中,特别是数字环境下,存在很大的局限性,突出表现在缺少对于信息对象表现形式的多样性、生命周期的变化性、衍生性和复合对象的复杂性的关系描述和基于关系的序化,即语义化程度较低。关联数据的出现提高了资源发现的相关性和便捷性,为机构知识库的发展和优化带来了契机。有关资料表明,截止2010年10月,数字图书馆和科研教育领域发布的关联数据源已达到68个,RDF三元组的数量占到关联数据云图总量的8.08%[23]。可见,数字图书馆界在关联数据的创建和发布方面已经取得了初步的研究成果,而在关联数据的集成融合等高层次的技术应用方面也逐步进入了探索和实验阶段。
2008年,瑞典联合目录LIBRIS[24]全球率先将国家图书馆级书目数据全部发布为关联数据,为大学图书馆、公共图书馆、博物馆以及档案馆提供在线编目服务。LIBRIS使用的词汇表并不仅仅局限于图书馆学领域,而是使用了FOAF(Friend of a Friend)、简单知识组织体系SKOS(Simple Knowledge Organization System)、Bibliontology的混合体,并以RDF实现了部分书目记录的功能需求FRBR(Functional Requirements of Bibliographic Records)算法。同时,为了加强和外部数据源间的关联,LIBRIS还创建了美国国会标题表LCSH(Library of Congress Subject Headings)和维基百科(DBpedia)之间的关联链接。2008年11月,欧盟数字图书馆(European)[25]项目在布鲁塞尔正式启动,它包括了来自欧盟27 国的书籍、手稿、音乐、绘画、地图、照片和电影等丰富多彩的信息和资料。它非常重视门户的互操作性,采用了SKOS编码,并引入了语义层,在各聚合对象之间建立语义连接,期望利用关联数据达到语义级别的检索。在同年的12月,英国的哈德斯菲尔德大学[26]迈出了大胆的一步,在开放数据共享许可协议(Open Data Commons License)下共享跨越13年的读者流通数据和数字图书馆读者荐购数据,为其他图书馆提供关于读者的借阅情况,如谁在何时借阅了什么等匿名信息集的下载。跨馆对比这类数据,可以发现不同区域的读者借阅趋势、评估馆藏的发展战略等。这种以数据优先的策略,重点关注了数据的效率和可用性,而不是数据本身的表达形式,为关联数据的应用提供了方向。
2009年5月,美国国会图书馆[27]以SKOS格式将LCSH全部关联数据化并提供词表的开放下载,成为关联数据应用的成功范例。同年9月,联网计算机图书馆中心OCLC(Online Computer Library Center)[28]利用SRU服务为虚拟国际规范文档VIFA(Virtual International Authority File)项目提供关联数据,不仅很大的提高了机构知识库规范文档的利用率,而且还能降低服务器的负载量。此后,德国国家图书馆、英国国家图书馆、匈牙利国家图书馆、法国国家图书馆等都先后宣布,将其部分图书馆目录、叙词表、名称及主题规范数据发布为关联数据,将关联数据在图书馆机构知识库知识组织体系中的应用推向了高潮。
通过分析上述的案例,可以看出目前关联数据在数字图书馆领域的应用主要有以下几个方面:
(1)利用关联数据扩展数字图书馆知识库的资源规模。对数字图书馆知识库来说,资源就是它的生命和血液,资源的规模越大,数据量越多,相应就越能够提供丰富的服务。在关联数据云图中,有许多关联资源可以作为图书馆的资源库和知识库,可以利用云图中的关联开放数据进行图书馆资源的扩展和关联,为用户提供更丰富、更有意义的检索结果。
(2)利用关联数据增强图书馆和其他机构团体间的资源共享和知识重组。除了利用现有的关联数据,图书馆还可以自己的特色数据发布成关联数据,增加用户返回图书馆的途径。关联数据是结构化的,依靠提供相关资源的链接而丰富现有的知识库资源,但同时这种链接不仅是图书馆内部资源自身的上下位关系的显式链接,而且还可以是图书馆资源和非馆藏资源间的外部链接,有助于知识库在更大范围内提供开放扩展服务。如此的“一来一往”,最终会为图书馆和教育机构、科研团体以及其他机构团体之间提供更强的跨机构合作和共享数据的能力,也为第三方用户如机器用户等提供对底层数据更便捷的存取和进行知识重组,从根本上增强了图书馆自身的社会价值和社会凝聚力。
(3)利用关联数据构建数字图书馆综合科技资源的语义化描述组织的本体框架。目前,在数字图书馆领域,支持信息资源语义化表示、存储、索引、检索、查询和共享利用的方法与技术体系正在逐步完善和成型。而支持规模化信息资源的自动语义标注方法,无论是基于传统的信息抽取方法,或基于自然语言分析处理或理解的方法,还是基于领域知识本体的方法,都还存在工程化、实用化方面的局限。关联数据作为一种支持语义互操作的技术体系,通过采用描述性语言RDF以及以数据为中心的、可定制的XML标记语言和技术来支持基于多维情境关系如关联、层次、约束、等价等的构建,支持对Web文档和内容进行更加丰富和富有意义的机器可理解的描述。这些机器可处理的描述反过来允许设计更加智能的软件系统,对基于Web的信息进行自动分析和利用。其中,本体被认为是支撑语义互操作和集成数据和过程的关键技术。不论是一个组织、用户群组或用户,都面临所处信息环境包含的多种内外部信息系统,这些系统普遍存在的不同的主题层级结构、元数据模式、以及不同的元数据查询式构造语法等,都会为检索者带来相当大
展开阅读全文