资源描述
<p>数字图书馆与元数据数字图书馆与元数据上海图书馆系统网络中心 赵亮概念与要点数字图书馆的定义数字图书馆的定义从不同的概念演变而来电子图书馆、网络图书馆、虚拟图书馆、没有围墙的图书馆、图书馆数字化等等尚无一个全球范围公认的定义数字图书馆的定义数字图书馆的定义定义一:利用数字技术获取、存储、存取、发布信息的图书馆定义二:数字图书馆为国家信息基础设施提供关键性信息管理技术,同时提供其主要的信息库和资源库。换句话说,数字图书馆是国家信息基础设施的核心。数字图书馆的定义数字图书馆的定义美国研究图书馆协会的定义1、数字图书馆并不是一个单一的实体;2、数字图书馆需要技术支持;链接许多信息资源;3、多个数字图书馆及信息机构之间的链接对终端用户透明;4、全球范围的对数字图书馆与信息服务的获取是一个目标;5、数字图书馆的收藏不仅限于文献的替身,她还把不能以印刷形式代替和传播的人工印刷品数字化,加以收藏。DefinitionThe digital library is not a single entityThe digital library requires technology to link the resources of manyThe linkages between the many digital libraries and information services are transparent to the end usersUniversal access to digital libraries and information services is a goalDigital library collections are not limited to document surrogates:they extend to digital artifacts that cannot be represented or distributed in printed formats(ARL,1995)数字图书馆的定义数字图书馆的定义中国数图工程规划的定义:是采用现代高新技术所支持的数字信息资是采用现代高新技术所支持的数字信息资源系统,将成为下一代互联网网上信息资源系统,将成为下一代互联网网上信息资源的管理模式,可从根本上改变目前网上源的管理模式,可从根本上改变目前网上信息分散、不便使用的现状。可以说,数信息分散、不便使用的现状。可以说,数字图书馆是运行在互联网上超大规模的、字图书馆是运行在互联网上超大规模的、便于使用的、没有时空限制的知识中心。便于使用的、没有时空限制的知识中心。数字图书馆的要点数字图书馆的要点数字化资源(多媒体)网络化分布化的体系结构统一的透明的用户接口全球化(非单一实体)元数据与对象管理新的服务体系与模式数字图书馆的结构数字图书馆的结构KW结构数字对象(Digital Object)键元数据、数字资料、调度码数字对象仓库(Repositories)元对象(Meta Object)图书馆自动化系统管理图书馆自动化系统管理/服务模式服务模式书刊资料库(物理馆藏)书目索引等二次文献图书馆管员读者 图书馆图书馆自动化自动化系统系统人工获取人工获取索引与对象间无完整性保证索引与对象间无完整性保证数字图书馆的结构数字图书馆的结构-IBM 检索数据(Search Data)LibraryServer 查询查询(SEARCH)访问入口访问入口客户端客户端(ACCESSClient)存储存储(STORE)对象内容(Content Objects)IBMDigitalLibrary读者光盘库或磁光盘库或磁带库带库数字图书馆的结构体系数字图书馆的结构体系国家图书馆数字图书馆的实践数字图书馆的实践国际数字图书馆先导计划(DLI 1、2)美国回忆和美国国家数字图书馆计划(NDLP)国内中国试验型数字图书馆项目中国数字图书馆工程美国美国DLI计划计划由美国科学基金会NSF、国防部高等技术开发署DARPA、美国航空航天总署NASA等单位联合资助DLI-1($24M,1994.91998.9)DLI-2($40M$50M,19992003)环境规划与多媒体信息系统(加州大学伯克利分校)图象和空间参考信息综合服务的分布式数字图书馆(加州大学圣巴巴拉分校)集成声音、图象和语言理解技术,创建和搜索数字视频图书馆-Informedia(卡内基梅隆大学)综合性科学文献数字图书馆(伊利诺大学厄尔巴那分校)智能信息搜索引擎(密歇根大学)各类数字图书馆网络综合集成机制-InfoBus(斯坦福大学)DLI1研究项目研究项目DLI-2在规模、范围、内容和方向在规模、范围、内容和方向上的显著变化上的显著变化受资助单位大幅度增加在过去纯研究的风格外,增加了面向实际问题的研究和开发除保留了传统的体系结构、信息检索、互操作主题之外,一些新的研究主题受到关注,如:信息保藏、添加声音、建立和维护数字图书馆的实际问题、与医疗有关的电子病历、医学图象等与情报学的联系密切地理信息核医学情报是众多项目的交汇点美国回忆与美国回忆与NDLP计划计划美国回忆(American Memory)由美国国会图书馆实施,主要内容为特色历史资源数字化。(1989-1995)美国国家数字图书馆项目(NDLP)是美国回忆的后续项目,目标是2000年数字化美国国会图书馆的500万件藏品。(1994-)计划总投资6000万美元。数字图书馆的实践(国内)数字图书馆的实践(国内)中国试验型数字图书馆项目1996年倡导,1997年立项,2001年结题国家图书馆、上海图书馆、南京图书馆、深圳图书馆、辽宁省图书馆、中山图书馆、桂林图书馆数字图书馆的实践(国内)数字图书馆的实践(国内)中国数字图书馆工程一期规划(2000-2005)指导思想:统筹规划,需求牵引,科技创新,滚动发展。建设原则:公益性为主、资源建设为核心、统一标准规范、开放建设与利益共享、开发与引进相结合数字图书馆的实践(国内)数字图书馆的实践(国内)中国数字图书馆工程建设目标:在互联网上形成超大规模的、高质量的中文数字资源库群,并通过国家骨干通信网向全国及全球提供高效服务;总体技术与国际主流技术接轨。建设一批中文多媒体资源库,总容量不低于20TB;联合引进若干国内需要的国外专题资源库;实现全国大部分地区图书馆文献资源的联合采编及馆际互借;完成开发具有中国特色的数字图书馆智能应用系统;培养一批高水平的专业人才队伍,持续发展中国数字图书馆工程。实施步骤:准备和实验阶段(2000年)初步实用阶段(2001-2002年)规模型成长阶段(2003-2005年)数字图书馆五大功能(数字图书馆五大功能(IBM)内容发布内容发布内容查询内容查询&访问访问内容创建内容创建&提取提取存储存储&管理管理?Right Managment权限权限管理管理数字图书馆主要技术内容数字图书馆主要技术内容馆藏资源数字化海量数据的建库与维护数字对象的存取和获得图书馆服务的网络提供版权管理数字资源标识体系数字资源标识体系文件系统URLPURLURNDOI其他.DOI的实例的实例 ./10.156/catalog-96 Publisher IDassigned byDOI AgencyItem IDassigned byPublisher 10.1048/872 10.1532/PII 10.18698/SICI 用户HandleSystem出版者或其他出版者或其他资源提供者资源提供者DOIDOI和和URN等的操作模型等的操作模型基于内容的检索文本-最成熟,实用化图象-通过色彩,底纹,形状视频-自动侦测析出关键帧音频-语音识别Query By Image ContentSearch images as human sees themcolor mixtureshapepositionaverage colortextureOr use an image as an example-”show me more like this”组组合检索合检索ultisearch“Cardin or Dior”QueryType=suitPrice$450Text Content SearchCatalog SearchPatternColorImage Content SearchImageFull TextCatalogThis beautiful suit by Cardin is available in our new winter collection.Item#:12345Type:suitPrice:$450Size:L,M,S多媒体信息检索多媒体信息检索 Informedia自动分析视频、音频、隐含的标题、场景变换和其它信息其特色在于:虽然个别模式的分析只能得到不完美的信息,但是组合所有模式提供的信息却能得到非常优异的效果向Informedia数字图书馆馆藏中增加新的素材将视频素材分割到各主题部分中通过音轨语音的识别、视频流隐含标题的识别来标识每个部分相关的文本各种自然语言处理工具产生合适的索引纪录用户可以用多模式中的任何一种形式提出查询要求多模式信息检索体现优异的效果多模式信息检索体现优异的效果电视节目的智能浏览电视节目的智能浏览Excerpted from Dr,Zhnag Hongjiangs 新一代多媒体检索自动分类文本总结电视台发出的或经语音识别得到的文本关键帧检测人脸检测和识别数字图书馆建设所涉及的标准数字图书馆建设所涉及的标准数字对象及存储标准(字符集、编码标准、媒体格式等)信息结构表达与交换标准(元数据标准)信息查询与显示标准(Z39.50、虚拟联合目录及馆际互借协议)信息安全与应用服务标准元数据简介元数据简介:什么是元数据什么是元数据数据的数据(Data about data)结构化数据(Structured data)资源的信息(Information about a resource)编目信息编目信息(Cataloguing information)管理、控制信息(Administrative information)元数据的种类元数据的种类管理型元数据结构型元数据描述型元数据描述性元数据的层级描述性元数据的层级描述能力描述能力低高常用的描述型元数据标准(或规范)常用的描述型元数据标准(或规范)MARCDCTEIEADFGDCCIMIGILS编码与著录编码与著录SGMLHTMLXMLRDF其他方式标记语言标记语言SGML (结构化、规范、复杂、描述能力强、需要DTD)HTML(半结构化、不断变化发展、描述能力差、单一DTD)XML(结构化、规范、简洁、描述能力强、DTD可选)标记语言实例标记语言实例HTMLHTML实例:实例:张三 系统网络中心 上海图书馆结果显示:结果显示:张三张三系统网络中心上海图书馆XMLXML实例:实例:张三系统网络中心上海图书馆标记语言实例标记语言实例更复杂的更复杂的XMLXML实例:实例:陈伯钧陈国懋523173918.jpg1910年11月26日1974年2月6日四川省达县河市乡北京高等军事学院院长上将1955年1955年一级解放勋章陈 伯 钧(1910-1974)陈伯钧,原名陈国懋,字少达。中国人民解放军高级将领。1955年被授予上将军衔,荣获一级八一勋章、一级独立自由勋章、一级解放勋章。.标记语言实例标记语言实例SGMLMARC Exampledata omitted Fosdick,Howard.Computer basics for libraries and information scientists/Howard Fosdick;with a forward by F.Wilfrid Lancaster (Adapted from“SGML and the USMARC Standard,”Technical Services Quarterly(15(3),21ff)SGMLTEI ExampleModified from TEI header created by the University of Virginia Library Cataloging Services Department:A summary view of the rights of British America:a machine-readable transcriptionJefferson.Thomas,1743-1826Approx.44 KilobytesUniversity of Virginia LibraryCharlottesville,Va.Available from:Oxford Text ArchiveURL:http:/etext.lib.virginia.edu/1993XML语言的三要素语言的三要素style sheetrenderingsoftwaredocument document with XML with XML markupmarkupformatteddocument DTD ClientServer(s)XML语言的三要素语言的三要素DTD或XML SchemaDocument Type Definition文件类型定义XSLeXtensible Stylesheet Language可扩展样式语言XLINKeXtensible Link可扩展链接语言The XML Namespace(命名域)互操作性与互操作性与RDF互操作性:由元数据语义及结构不同所引起的难题。解决方法:根据元数据之间的对应关系(mapping)进行相互转换核心元数据集-如Dublin Core支持异构的资源检索RDF资源描述框架(Resource Description Framework)数据描述模式而且采用基于 XML的句法提供语义、结构、句法三个层次的互操作能力模块化的互操作能力有些数据化信息需要不同的元数据描述,RDF对集成这些元数据非常有用什么是什么是RDF?RDF是一个与任何特定语法无关的抽象的资源表达模式,用来反映资源(Resource)、属性(Property)与属性值(Value)资源resource属性property属性值value语句statement什么是什么是RDF?http:/ 作者作者author张三张三什么是什么是RDF?作者作者author张三张三RDF基于XML的描述实例:RDF描述实例描述实例DC:DC:Creator张三张三基于基于RDF的的DC描述实例描述实例Warwick Framework ContainerMetadata ContainerPackage(Dublin Core)Package(Geospatial)Package(Indirect)Package(Access Terms)URIFrom:Daniel,Lagoze什么是什么是Dublin Core元数据元数据 1995年3月,由OCLC与国家超级计算应用中心(NCSA)联合发起,52位来自图书馆界、电脑网络界专家共同研究产生。目的是希望建立一套描述网络电子文献的方法,以便网上信息检索。其中心议题是如何用一个简单的元数据记录来描述种类繁多的电子资源,使非图书馆专业人员都能够了解和使用著录格式,来描述网上资源。至今已开过七次研讨会,第九次将于2001年在日本举行。每次会议都有一些具体的成果和决定。如第四次会议在澳大利亚堪培拉举行,会上发布3种修饰词,故称为堪培拉修饰词。十五个基本元素十五个基本元素 简单清晰的语义定义简单清晰的语义定义 应用面广应用面广(DLO对象)对象)易于易于伸缩与扩展伸缩与扩展 扩展的扩展的DCTYPE(Subelement),SCHEME,LANGUAGE 三种形式三种形式 事实上的工业标准事实上的工业标准-RFC2413 广泛的支持与应用广泛的支持与应用已成为美国国家标准(已成为美国国家标准(Z39.85)什么是什么是Dublin Core元数据元数据DC元素元素(都柏林核心集都柏林核心集)内容描述内容描述 知识产权知识产权 外形描述外形描述题名 Title 创建者 Creator 日期 Date主题 Subject 出版者 Publisher 类型 Type说明 Description 其他责任者 Contributor 款式 Format来源 Source 权限 Rights 标识 Identifier语种 Language关联 Relation覆盖范围 CoverageDC的特点所有的元素都是可选的所有的元素都是可重复的元素的排列没有先后次序具有良好的扩展性全球化DC扩展扩展(都柏林核心集都柏林核心集)旨在通过使用修饰词进一步明确元数据的特性(比如一个日期可以作进一步的描述,如发表日期和修改日期)DC允许各个地方应用系统在15个基本元素的基础上增加新的元素或新的修饰词,但应坚持互操作性的原则,同时提请DC大家庭注意,以便纳入新的DC规范DC:Title(题名)题名)A name given to the resource赋于资源的名称DC:Creator(创建者)创建者)An entity primarily responsible for making the content of the resource创建资源内容的主要责任者DC:Contributor(其他责任者)其他责任者)An entity responsible for making contributions to the content of the resource对资源内容创建作出贡献的其他责任者DC:Publisher(出版者)出版者)An entity responsible for making the resource available使资源成为可获得状态的责任者DC:Date(日期)日期)A date associated with an event in the life cycle of the resource与资源本身生命周期中的一个事件相关的日期DC:Relation(关联)关联)A reference to a related resource对相关资源的参照DC:Source(来源)来源)A reference to a resource from which the present resource is derived对一个资源的参照,当前资源源自这一参照资源DC:Description(描述)描述)An account of the content of the resource对资源内容的说明9、没有失败,只有暂时停止成功!Digital library collections are not limited to document surrogates:they extend to digital artifacts that cannot be represented or distributed in printed formatsEnsuring Full Informational Capture:“No More,No Less”assigned by50、虚拟联合目录及馆际互借协议)张三有关资源内容的主题描述旨在通过使用修饰词进一步明确元数据的特性(比如一个日期可以作进一步的描述,如发表日期和修改日期)800 pixels x 1,000 pixelsEffects of Threshold北京高等军事学院院长中国人民解放军高级将领。DC:Type(类型)Right Managment完成开发具有中国特色的数字图书馆智能应用系统;DC:Subject(主题)主题)The topic of the content of the resource有关资源内容的主题描述DC:Type(类型)类型)Nature or genre of the content of the resource有关资源内容的特征和类型DC:Format(格式)格式)Physical or digital manifestation of the resource资源的物理或数字表现形式DC:Identifier(标识符)标识符)An unambiguous reference to the resource within a given context在特定范围内给予资源的一个明确的标识DC:Language(语种)语种)A language of the intellectual content of the resource 描述资源知识内容所使用的语种DC:Coverage(覆盖范围)覆盖范围)Extent or scope of the content of the resource资源内容所涉及的范围DC:Rights(权限)权限)Information about rights held in and over the resource有关资源本身所有的或被赋予的权限信息多媒体与数字化多媒体与数字化上海图书馆系统网络中心 赵亮概念与要点多媒体的基本概念多媒体的基本概念多媒体定义指能够同时获取、处理、编辑、存储和展示两个以上不同类型信息媒体的技术。多媒体技术计算机综合处理多种媒体信息,文本、图形、图像、音频和视频,使多种信息建立逻辑连接,集成为一个系统并具有交互性。多媒体类型:文本、图形、图像、音频、视频、三维建模(虚拟现实)等等多媒体格式总结多媒体格式总结文本编码(中文编码、不同平台编码)特殊标记、格式图象压缩存储(有损压缩和非有损压缩)TIFF,JPEG,GIF,BMP多级存储音频WAV,MP3,REAL AUDIO视频AVI,QUICK TIME,MPEG I,MPEG II,MPEG IV,REAL VIDEO其他(三维实体VRML等等)多媒体格式总结(数字化方法)多媒体格式总结(数字化方法)文本录入员录入对扫描文件进行OCR图象扫描数码照相音频利用声卡采集电脑合成视频利用视频采集卡采集硬件压缩转换或软件压缩转换海量数据实例海量数据实例Text(1 page):5K/1KImage(1024x768):2.3M/300KVoice(1 min):480K/60KMusic(1 min,CD):10.2M/1MVideo(1 min,VHS):400M/10MVideo(1 min,NTSC):1.6G/35MVideo(1 min,HDTV):4.8G/200M扫描或照相要点扫描或照相要点扫描模式分辨率(resolution,多少DPI)颜色深度(bit depth,多少bit)颜色管理(色彩还原)修正(去网纹,校正)压缩存储人工修正(去污点,对比度,亮度)系统能力(内存等等)四种扫描模式四种扫描模式BitonalGrayscaleColorSpecial Treatment各种分辨率的效果各种分辨率的效果600 600 dpidpi300 dpi300 dpi200 dpi200 dpi在二值扫描中调整阈值在二值扫描中调整阈值defines the point on a scale from 0 to 255 at which gray values will be interpreted either as black or whiteEffects of Thresholdthreshold=100threshold=6012、故人江海别,几度隔山川。信息结构表达与交换标准(元数据标准)DTD或XML Schema-自动侦测析出关键帧DC:Contributor(其他责任者)11、以我独沈久,愧君相见频。17、做前,能够环视四周;Approx.17、做前,能够环视四周;4、全球范围的对数字图书馆与信息服务的获取是一个目标;10、阅读一切好书如同和过去最杰出的人谈话。信息安全与应用服务标准信息查询与显示标准(Z39.Bit Depthnumber of bits used to represent each pixel,typically 8 bits or more per channelrepresenting 256(28)levels for grayscale and 16.7 million(224)levels for color example:8-bit grayscale pixel 00000000=black 11111111=whiteBit Depthincreasing bit depth increases the level of gray or color information that can be represented and arithmetically increases file size affects resolution requirementsEffects of Grayscale on Image Quality3-bit gray8-bit grayEffects of JPEG Compression300 dpi,8-bit grayscaleuncompressed TIFFJPEG 18.5:1 compressionmonitor:800 x 600 pixels800600document:8”x 10”,200 dpi(1,600 x 2,000 pixels)2,000pixels1,600 pixelsdocument at 60 dpi480 pixels x 600 pixelsdocument at 100 dpi800 pixels x 1,000 pixels TIFF UncompressedGIF Compressed6:1(NARA)JPEG Compressed 20:1(LC)Compression/File Format Comparison for Derivative Files文档扫描提取文档扫描提取DocumentPreparation批量扫描建立索引Thumbnail GenerationOCR ProcessingScript GenerationLoadingFull text IndexingDigital LibraryBackup copies彩色图片扫描提取彩色图片扫描提取素材准备扫描色彩校正、影象处理、编辑、索引降低分辨率、生成拇指图、加水印脚本生成、装载、全文索引Digital Library备份数字多媒体内容获取数字多媒体内容获取+Video/AudioCapture提取卡MPEGVideo/Audio特殊效果声频混和视频/声频编辑编码/压缩卡+MPEG 编码/压缩原始资料Ensuring Full Informational Capture:“No More,No Less”costimage quality and utilitydesired point of capture9、静夜四无邻,荒居旧业贫。11月-2411月-24Tuesday,November 5,202410、雨中黄叶树,灯下白头人。22:30:1422:30:1522:3011/5/2024 10:30:15 PM11、以我独沈久,愧君相见频。11月-2422:30:1722:30Nov-2405-Nov-2412、故人江海别,几度隔山川。22:30:2022:30:2022:30Tuesday,November 5,202413、乍见翻疑梦,相悲各问年。11月-2411月-2422:30:2322:30:23November 5,202414、他乡生白发,旧国见青山。05 十一月 202410:30:25 下午22:30:2511月-2415、比不了得就不比,得不到的就不要。十一月 2410:30 下午11月-2422:30November 5,202416、行动出成果,工作出财富。2024/11/5 周二 22:30:2922:30:2905 November 202417、做前,能够环视四周;做时,你只能或者最好沿着以脚为起点的射线向前。10:30:30 下午10:30 下午22:30:3011月-249、没有失败,只有暂时停止成功!。11月-2411月-24Tuesday,November 5,202410、很多事情努力了未必有结果,但是不努力却什么改变也没有。22:30:3322:30:3322:3011/5/2024 10:30:33 PM11、成功就是日复一日那一点点小小努力的积累。11月-2422:30:3422:30Nov-2405-Nov-2412、世间成事,不求其绝对圆满,留一份不足,可得无限完美。22:30:3722:30:3722:30Tuesday,November 5,202413、不知香积寺,数里入云峰。11月-2411月-2422:30:3922:30:40November 5,202414、意志坚强的人能把世界放在手中像泥块一样任意揉捏。05 十一月 202410:30:41 下午22:30:4211月-2415、楚塞三湘接,荆门九派通。十一月 2410:30 下午11月-2422:30November 5,202416、少年十五二十时,步行夺得胡马骑。2024/11/5 周二 22:30:4622:30:4605 November 202417、空山新雨后,天气晚来秋。10:30:47 下午10:30 下午22:30:4711月-249、杨柳散和风,青山澹吾虑。11月-2411月-24Tuesday,November 5,202410、阅读一切好书如同和过去最杰出的人谈话。22:30:5222:30:5222:3011/5/2024 10:30:53 PM11、越是没有本领的就越加自命不凡。11月-2422:30:5522:30Nov-2405-Nov-2412、越是无能的人,越喜欢挑剔别人的错儿。22:30:5722:30:5722:30Tuesday,November 5,202413、知人者智,自知者明。胜人者有力,自胜者强。11月-2411月-2422:31:0022:31:00November 5,202414、意志坚强的人能把世界放在手中像泥块一样任意揉捏。05 十一月 202410:31:02 下午22:31:0211月-2415、最具挑战性的挑战莫过于提升自我。十一月 2410:31 下午11月-2422:31November 5,202416、业余生活要有意义,不要越轨。2024/11/5 周二 22:31:0622:31:0705 November 202417、一个人即使已登上顶峰,也仍要自强不息。10:31:08 下午10:31 下午22:31:0811月-24MOMODA POWERPOINTLorem ipsum dolor sit amet,consectetur adipiscing elit.Fusce id urna blandit,eleifend nulla ac,fringilla purus.Nulla iaculis tempor felis ut cursus.感感 谢谢 您您 的的 下下 载载 观观 看看专家告诉</p>
展开阅读全文