收藏 分销(赏)

基于关联开放数据的图书馆数字资源多维度聚合研究.pdf

上传人:自信****多点 文档编号:634941 上传时间:2024-01-20 格式:PDF 页数:4 大小:3.02MB
下载 相关 举报
基于关联开放数据的图书馆数字资源多维度聚合研究.pdf_第1页
第1页 / 共4页
基于关联开放数据的图书馆数字资源多维度聚合研究.pdf_第2页
第2页 / 共4页
基于关联开放数据的图书馆数字资源多维度聚合研究.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、84数字网络图书馆学刊2023年第7 期TUSHUGUANXUEKANNO.7,2023基于关联开放数据的图书馆数字资源多维度聚合研究郭德成(中共青海省委党校,青海西宁8810000)摘要 大数据时代促进了数据的开放获取,开放数据成为一种新的数据形式。关联开放数据作为资源聚合的一种新方法,克服了资源本体的领域局限性。在分析现有资源和开放资源数据融合的基础上,设计了基于关联开放数据的图书馆数字资源多维度聚合模型,从内容、结构和使用3 个维度进行资源语义聚合,并以中文古籍联合目录循证平台为例进行案例分析,以期为图书馆资源建设提供借鉴。关键词 关联数据开放数据数字资源资源聚合分类号 G217.5大数

2、据时代,数据开放获取成为时代的必然要求,开放数据也成为一种新的数据形式。开放数据是指在不涉及安全和隐私的情况下对外公开的数据,用户可以免费、自由地使用这些数据,以实现数据应用和增值。开放数据具有易获得、使用自由、机器可读等特点2 。近年来,关联开放数据研究得到了图情领域研究者的重视。关联开放数据作为数字资源聚合的一种新工具,通过元数据语义化操作,利用语义关系创建关联网络,从而实现资源在元数据层面的深层次语义关联,克服了资源本体在领域层面的不足 3 。目前国外针对关联开放数据的资源聚合应用实践较多,而国内的应用实践尚处于起步阶段。因此,笔者在研究图书馆数字资源融合开放数据流程的基础上,设计了基于

3、关联开放数据的图书馆数字资源多维度聚合模型,并以中文古籍联合目录循证平台为例进行案例分析,以期提高图书馆数字资源使用效率。1相关研究概述1.1开放数据开放数据作为大数据时代的新词,目前关于其定义主要有以下两种观点:(1)开放数据是不受专利、版权或其他机制等的限制,可以被所有人自由获取的数据4;(2)开放数据是互联网技术的基础以及分布式计算等的解决方案 5 。开放数据具有易获得性、共享性等特点。目前图书馆领域关于开放数据的研究主要集中在资源建设、服务模式创新 7 、平台建设8 等方面。开放数据为图书馆转型提供了新的途径,一方面,图书馆作为数据的提供者,为用户提供检索数据的渠道,支持数据开放获取,

4、促进了数据的流通和共享,从而提高了图书馆的数据服务效率;另一方面,图书馆也是开放数据的接收者,图书馆可以通过开放获取的方式获取到更多的资源信息,促使图书馆资源服务更加多元化、精准化。1.2关联开放数据关联开放数据首先要以关联数据的规则公开数据,进而引导所有用户在互联网中自由使用以及发布数据。国际万维网联盟W3C为促进数据开放获取,展开了关联开放数据运动。2 0 0 7 年,W3C的SWEO申报了关联开放数据项目,旨在在互联网上发布RDF格式的开放数据以及表示不同数据集间的关联关系。目前国内外对关联开放数据的研究实践进行了深入探索,英国国家书目(简称BNB)项目通过关联开放数据,发布了从19 5

5、 0 年起出版的图书和期刊,并为用户提供开放获取图书和期刊的途径9;OCLC的WorldCat项目构建了基于OCLC的关联数据模型;美国国会图书馆的BIBFRAME项目为促进资源通用,研究了书目数据的标准编码格式i;欧洲数字图书馆Europeana基于关联开放数据实现了不同来源、不同渠道数字文化资源的融合12。国内应用实践相对较少,上海图书馆在国内最早发行了基于关联开放数据的数据库,公开发布了开放数据数据集,并提供端口供开发人员调用U31;复旦大学的CN-DBpedia作为国内最早的中文通用百科开放知识图谱,从中文百科网站页面爬取信息并进行处理和过滤后,为用户提供结构化数据 4。1.3图书馆数

6、字资源聚合图书馆数字资源聚合可以充分显示资源的价值,甚至实现资源增值。IBM知识中心认为数据聚合是获取原始数据并对数据进行统计分析的过程5 。图书馆资源聚合可以产生新的产品或模式,促进用户发现新规律。目前图书馆主要有面向知识服务的资源聚合研究16 、基于元数据的资源聚合研究 17 、基于数据管理的资源聚合研究 18 等。图书馆数字资源聚合重点强调元数据标准构建、本体设计以及语义关联,并通过资源聚合以提高资源的利用率、共享性。2图书馆数字资源融合开放数据的流程开放数据与现有资源数据融合是图书馆数字资源聚合的基础。图书馆现有资源融合开放数据的流程主要分为以下几步:首先,可以通过人工或者计算机定时获

7、取开放数据;其次,将文献数据与开放数据进行融合,通过构建统一的元数据标准以及进行元数据抽取,确保开放数据与现有文献资源在元数据的格式和内容上保持一致;最后,使用非关系型数据库如NoSQL进行实时数据存储和查询。85TUSHUGUANXUEKANNO.7,2023数字网络图书馆学刊2023年第7 期2.1开放数据获取目前开放数据来源有政府数据、科研数据、企业数据等,不同的平台数据格式不一样,主要有csv、x l s x、x ml、p d f 等格式。数字图书馆可以通过人工或者计算机定时获取开放数据。2.2开放数据与文献数据融合通过构建元数据标准将开放数据与现有资源数据进行融合,在设计元数据方案时

8、需要综合考虑元数据标准、元数据的延展性、系统兼容性等问题。由于开放数据内容和格式与文献资源数据存在差异,因此需要对元数据进行统一,确保开放数据与现有资源在元数据的格式和内容上保持一致。一般情况下,多源异构多模的文献资源在元数据表达上还会存在不同,可能还会存在缺少核心元数据的情况,需要通过构建词库的方式进行元数据准确抽取。开放数据与文献资源数据不同的是开放数据一般不包含大段的描述性文本,标题有时可以概括数据内容,因此在对开放数据发布时,一方面要补充相关缺失字段内容,另一方面可以将标题作为开放数据元数据的抽取对象。2.3数据存储数字图书馆现有资源和开放数据一般由非结构化数据组成,如果使用关系型数据

9、库进行数据存储,图书馆可能会面临服务器负载过重、无法实时查询和分析、扩展性差等问题。因此数字图书馆可以采用非关系型数据库进行数据存储。NoSQL作为非关系型数据库,具有扩展性强、可容纳海量数据、读写能力强、数据模型较为灵活等优点,可以为开放数据和文献资源提供实时存储与查询,为后续资源聚合提供了便利。3基于关联开放数据的图书馆数字资源多维度聚合模型设计图书馆数字资源聚合需要从多维度和多视角对资源进行关联和聚合,笔者基于关联开放数据提出了多维度聚合模型(如图1所示)。该模型包含4 个层次,数据层是资源聚合的基础,通过设计元数据标准对现有资源和开放数据进行融合、数据存储,形成元数据集;语义描述层是对

10、元数据进行语义化操作,形成RDF格式数据并对数据进行发布;语义聚合层是从内容、结构和使用3个维度对资源进行聚合、关联;服务应用层是为用户提供关联数据的检索服务,同时以可视化等形式将结果呈现给用户。语义聚合层元数据本体1资源内容维度资源结构维度专用SAPRQL编点资源使用维度关联数据搜素引馨元数据格式转换QROF语义描达关联数据集成检索系统语义描达层关联数据访间元数据本体口多维度关联、多维度聚合服务放用屋SAPROL查湖元数据本体n关联数据下载关联数据API集成应用关联数据维护与服务元数据本体映射1图书馆数字资源关联1数据爱盖网络其他终纳图1基于关联开放数据的图书馆数字资源多维度聚合模型3.3语

11、义聚合层3.1数据层基于关联开放数据的图书馆数字资源聚合模型中的数据来源广泛,包含馆藏数据资源、开放数据以及其他相关数据。在数据层需要利用统一的元数据标准对上述数据进行数据转换、融合、存储,形成元数据集,为下一步语义描述层奠定基础。3.2语义描述层语义描述层对元数据进行语义化操作,以便进行语义关联、知识挖掘。语义描述层主要包含两个步骤:元数据本体的语义化转换以及建立RDF语义关联。首先进行元数据本体的语义化转换,参照相关标准对多源异构元数据集建立语义链接,生成核心元数据本体,进行XML转换,生成RDF格式的语义元数据;建立RDF语义关联,通过解析本体,挖掘出隐性关联数据,借助词表、词库进行关联

12、关系映射,将隐性语义关联关系转化为显性关联关系,从而完成RDF语义链接,并通过静态RDF、We b A P I 等形式对RDF数据进行发布。特征提取的结果将影响资源聚合的效果。笔者从资源的内容、结构和使用3个维度对资源进行语义聚合:内容维度聚合是指基于关联规则建立如主题词聚类、文本分类或者基于推导传递方式将同一机构、作者的资源进行聚合;结构维度聚合是指通过元数据的值匹配、元数据的内容相似度、本体关系等方式进行资源聚合;使用维度聚合是指从引文关系角度出发进行资源聚合,包括引文关系强度聚合、路径聚合等。通过URI来标记和追踪RDF资源和链接,语义标注关联数据,并通过关联开放数据和原有图书馆数字资源

13、数据的端口,从内容、结构和使用3个维度与外部的开放数据集建立语义关联,从而实现现有资源与开放数据的语义聚合3.4服务应用层基于关联开放数据的图书馆数字资源多维度聚合的目的是提高数字资源的利用效率,形成开放数据和现有资源的知识关联,为数字图书馆知识服务增值。因此服务应用层主要为用户提供检索服务,同时以可视化形式将结果86TUSHUGUANXUEKANNO.7,2023数字网络图书馆学刊2023年第7 期呈现给用户。此外,服务应用层还对各类资源进行知识描述、重构、管理,便于用户进行知识发现和规律总结,从而提高资源的利用价值和共享效率。4基于关联开放数据的图书馆数字资源多维度聚合案例分析作为国内最早

14、进行关联开放数据实践的机构,上海图书馆针对关联开放数据开发了一些数据库,并为开发者提供原始数据集。笔者以其开发的中文古籍联合目录循证平台为例进行案例分析,基于前文构建的多维度聚合模型,对古籍进行元数据构建、元数据语义描述、多维度语义聚合以及结果可视化呈现,从而实现古籍资源的共享。4.1元数据构建古籍种类繁多,类型复杂,对古籍进行描述的时候既要考虑对象描述也要考虑其关联关系的建立。中文古籍联合目录循证平台的元数据标准构建主要参考了BIBFRAME(如表1所示),主要从内容和管理两个角度统一描述开放数据和现有资源的古籍数据,并可对特定领域进行元数据标准的拓展。表1中文古籍联合目录循证平台的古籍核心

15、元数据标准分类元素古籍描述信息名称、年代、类别、标识符、来源等数字对象管理信息创建者、时间、版权数字对象描述信息文件名、大小、格式、类型相关资源相关人物、相关事件、关联资源4.2本体设计中文古籍联合目录循证平台本体设计方法参照上海图书馆家谱本体设计原则(如图2 所示),包含4 0 个类和160个属性,设计步骤如下:(1)确定领域范畴,针对古籍类别构建本体;(2 参照已有本体,结合古籍特征构建本体;(3)列出领域术语,梳理出相关联的术语;(4)归纳总结古籍本体术语词表,确定层级结构;(5)定义类的属性,界定有层级关系的属性之间的概念框架;(6)本体实例化;(7)检验本体以及实现本体可视化。通过本

16、体界定了不同来源的古籍间的概念及其关系,实现对古籍元数据的知识表示,为资源聚合奠定基础。bt:Workbf:cdassificationrdfs:domain.rdfs:comment家通作品bf:contrlbutorrdfs:domain作品bf:creatorrdfs:domainbr:Resourcerdfs:domainrdfs:subdassofrdfs:commentbt:hasinstanceret:domalrdts:一资源br.hasPartrdts:rangerdf:typerdfs:Cdassbf:instanceof4rdfs:range.rdis:subClasso

17、frdfs:Resourcerdfs:domainrdf:typebf:partofrdts:rangerdfis:dassbf:subjectrdfs:domainbritemporalCoverageNoteerdfs:domalnbf:titerdfs:domainpmb:hasAnnotationtrdfs:domainpmb:Work rdfs:subdassofshl:relatedworkndfs:range图2中文古籍联合目录循证平台的古籍本体设计4.3多维度数据关联中文古籍联合目录循证平台通过本体语义描述古籍,将相关数据转化为RDF格式并进行数据发布,接着通过循证研究从多维度

18、对不同来源、不同版本的古籍数据进行关Q输入惠名/黄任者/批校题践费/版本频型/雕署进行二次检数馆藏横Q搜索结果找17 4 结巢,用时0.9 0 1秒排序版本时间國家圆害够(6 0)旦大学圈墨缩(34)北京大季圈警铭(32)雕喷攀特外一卷上海圈誉馆(30)分姨經部一特巍一三家诗之腩中國科学院图蕾韵(2 9)邀摩雀圈書馆(2 7)重喷攀持外德一卷版本频型分酒蒙部一淘摆频一清代俊期顿刻本(6 9)抄本(12)影印本(5)重颜韓詩外傅一卷更多微本信康铅印本(4)所有博任者俞健楼分额經部一诗籁一三家诗之圈印本(1)稿本(1)韓特外德版本时間所有寶任者神婴分藏部一雉藥频一宋元频宋(1)元(1)明(4 8)

19、摩特外德清(2 8)所药责任著分题遵部一雅慕娇一明代频民国(6)其他(9 0)寶任者瞳韩特外傅刻本】更多版本雕婴(14 0)所有霞住者韩婴摄分囍慢部一桑编装蕾類明天3年(16 2 3)周宗(17)越德玉(14)周廷宝(8)重挚特外停刻本】陈士珂(7)所有任者韩婴摆分蒙部一量编羲馨類版本时构明崇祯11年(16 38)舒瀚(4)赠批校题跋者量韓特外傅 刻本更多嵌本值邮周廷菜(5)所有任者韩婴摄分装部一录编菱番颊版本橙明素祯15 年(16 4 2)越镶玉(5)楼(4)周廷宝(3)抄本】塑布版本信傅增湘(2)所有费任者神婴摄分蜡摄部-景编撼睿频藏(2)量摩特外傅沙本】更邮版车凰所药青任者分额数部一爱编

20、趣馨频图3检索结果可视化87责编:刘清扬。)数字网络2023年第7 期图书馆学刊TUSHUGUANXUEKANNO.7,2023联聚类,最后建立关联数据网络。循证研究主要为版本研究、分类研究和其他人文领域研究提供方法和工具,实现多维度分面资源聚合。以韩诗外传为例9,通过版本学方法对不同版本的韩诗外传进行聚类比较,通过作品的源流分析对不同注释的韩诗外传进行聚类比较,通过古籍分类方法对不同分类的韩诗外传进行聚类比较,通过人文历史研究的方法对责任者合作关系以及不同责任者与作品关系进行统计分析,从而实现韩诗外传版本聚类。4.4聚合结果可视化展示通过元数据标准统一和抽取、语义描述、本体设计以及多维度数据

21、聚合,生成了RDF文件,最后在相关开发技术设计应用平台,用户可以通过题名、责任者、版本类型等进行检索,平台基于关联开放数据的多维度资源聚合模型生成了检索结果,并将结果以可视化等方式反馈给用户(如图3所示)。如输人韩诗外传,页面左侧提供了相关分类供用户进行结果筛选,页面右侧显示了该书的相关版本,可以在检索框里输入责任者、批校题跋者进行二次检索,也可以通过标题、版本时间等对检索结果进行排序,方便用户快速找到所需的资源。5结语开放数据是可以自由获取、无使用限制的数据,大大促进了资源的传播、共享和利用,为图书馆资源建设、服务转型提供了新方向。近年来关联开放数据研究得到了图情领域研究者的重视。关联开放数

22、据可以克服资源本体的领域局限性,通过元数据语义操作,利用语义关系创建关联数据网络,实现资源在元数据层面的深层次语义关联。笔者首先从开放数据获取、统一元数据和元数据抽取、数据存储3个环节进行开放数据和现有资源数据的融合,其次设计了基于关联开放数据的图书馆数字资源多维度聚合模型,从内容、结构和使用3个维度对图书馆数字资源进行聚合,最后以中文古籍联合目录循证平台为例进行了案例分析。未来图书馆在进行基于关联开放数据的数字资源聚合时,仍需要不断完善元数据标准建设以及本体模型构建,一方面根据开放数据特点以及现有资源特征实时更新、完善统一元数据标准,提高数据转换效率;另一方面加强关联开放数据的方法和工具研究

23、,不断完善语料库,为多维度语义关联提供技术支撑,以满足用户个性化、多元化的资源需求,实现数字图书馆资源增值。参考文献:1 李晓辉.图书馆科研数据管理与服务模式探讨 .中国图书馆学报,2 0 11(5):4 6-5 2.2赵宁,黄铁娜,曹洋.图书馆融合政府开放数据服务模式探索 J.新世纪图书馆,2 0 2 0(12):6 2-6 5.3王萍,黄新平.基于关联开放数据的数字文化资源语义融合方法研究一欧洲数字图书馆案例分析 J.图书情报工作,2 0 16(12):2 9-37.4梁艺多,翟军,林岩.国外图书馆参与政府数据开放的实证研究及对我国的启示 .图书馆工作与研究,2 0 2 0(8):42-5

24、0.5 Alliance O D C.Defining a New Class of Data Center andCloud Infrastructure SolutionsEB/0L.2011-10-27.http:/www.opendatacenteralliance.org/thealliance,2011.6崔宇婷.基于开放数据的图书馆信息资源建设研究 1情报探索,2 0 2 0(2):10 0-10 4.7徐新雨.图书馆参与政府数据开放:角色和路径 .情报探索,2 0 2 1(10:114-118.8胡娟,柯平.我国图书馆数字人文项目建设经验与启示一一以上海图书馆家谱知识服务平台项

25、目为例 图书馆工作与研究,2 0 2 2(1):2 7-36.9W3C community projects:linking open dataEB/OL.2017-12-03.https:/www.w3.0rg/wiki/SweoIG/Task-Forces/CommunityProjects/LinkingOpenData.10MITCHELL E T.Building blocks of linked open data inlibrariesJ.Library technology reports,2013(5):11-24.11 ISAAC A,BAKER T.Linked data

26、 practice at differentlevels of semantic precision:the perspective of librar-ies,archives and museumsJ.Bulletin of the AmericanSociety for Information Science and Technology,2015(4):34-39.12 OARD D W,LEVI A S,PUNZALAN R L.Bridgingcommunities of practice:emerging technologies for con-tent-centered li

27、nkingEB/0L.2016-03-03.http:/terpconnect.umd.edu/oard/pdf/mw2014.pdf.13上海图书馆开放数据平台 EB/OL2016-03-10.http:/ CN-DBpediaEB/OL.2020-03-23.http:/ 苗珍珍.面向教育数据开放的数据聚合方法及应用研究 D.大连:大连海事大学,2 0 2 0.16赵雪芹,等.领域知识图谱在非遗档案资源知识组织中的应用探索 .档案学通讯,2 0 2 1(3):5 5-6 2.17段菲菲,杨元,张毅红.基于BIBFRAME的科技成果信息资源多维度聚合研究 J.情报科学,2 0 2 2(2):18-27.18 杨海锋.大数据环境下企业知识管理聚合研究 .大学图书情报学刊,2 0 16(5):9 5-10 0.19夏翠娟,林海青,刘炜.面向循证实践的中文古籍数据模型研究与设计 .中国图书馆学报,2 0 17(6):16-34.郭德成男,19 8 3年生。本科学历,馆员。研究方向:数字图书馆、图书馆技术。(收稿日期:2 0 2 2-0 6-0 1;

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服