收藏 分销(赏)

文献检索精华.pptx

上传人:精**** 文档编号:4253424 上传时间:2024-08-30 格式:PPTX 页数:163 大小:633.77KB
下载 相关 举报
文献检索精华.pptx_第1页
第1页 / 共163页
文献检索精华.pptx_第2页
第2页 / 共163页
文献检索精华.pptx_第3页
第3页 / 共163页
文献检索精华.pptx_第4页
第4页 / 共163页
文献检索精华.pptx_第5页
第5页 / 共163页
点击查看更多>>
资源描述

1、1网络信息资源组织和检索人民邮电出版社2第1章 网络信息资源组织 近年来,随着Internet技术的迅速发展和普及应用,网络信息资源组织正越来越受到人们的关注。那么什么是网络信息资源组织?其原理如何?当前网络信息资源组织的现状及存在的问题有哪些?标准有哪些?以及发展趋势如何?在实际工作中的运用如何?下面将给大家进行介绍。31.1 信息组织概述 1.1.1 信息 1.信息的定义信息的定义 2.信息的分类信息的分类 3.信息的特性信息的特性 41.信息的定义信息的定义有代表性的定义:信息是事物运动的状态与方式,是物质的一种属性;信息是负熵;信息是与控制论系统相联系的一种功能现象;信息是用以消除随机

2、不确定性的东西;信息是一种可供开发和利用的并具有其自身价值的一种资源。5 我们认为,信息的概念可以这样来定义:信息是客观世界中各种事物的变化和特征的最新反映以及经过传递后的再现。信息是通过一定的物质载体形式反映出来的,是事物存在的状态、运动形式、运动规律及其相互联系、相互作用的表象。6信息的定义 另外,对于信息概念的认识,我们还可以从以下几个方面来理解。(1)信息是使人们对事物不确定性的减少或消除的东西;(2)信息是与外界相互交换的内容;(3)信息是事物变化和差异的表现;(4)信息是系统的组织程度和有序程度的结合。72、信息的分类、信息的分类按信息内容:按信息内容:人类信息;非人类信息。按按信

3、信息息产产生生的的先先后后和和加加工工深深度度:一次信息;二次信息;三次信息。按信息的存在形式:按信息的存在形式:内储信息;外化信息。按按信信息息的的流流通通方方式式和和传传递递范范围围:公开信息;半公开信息;非公开信息。按信息载体形式:按信息载体形式:感官载体形式;语言载体形式;文字载体形式;电磁波载体形式;缩微载体形式;光波载体形式;声像载体形式;计算机载体形式。83、信息的特性、信息的特性普遍性存储性传递性共享性开发性价值的不定性 91.1.2 信息组织信息组织1.信息组织的定义信息组织的定义 2信息组织的理论基础信息组织的理论基础 3信息组织的方法基础信息组织的方法基础 101.信息组

4、织的定义信息组织的定义 信息组织就是将收集的信息予以结构化,也就是指采用一定的方式,将某一方面大量的、分散的、杂乱的信息经过加工、整理、提炼、优化后形成一个便于有效利用系统的过程。112信息组织的理论基础信息组织的理论基础关于知识组织的理论 系统科学理论 耗散结构理论 协同论 突变理论 信息自组织理论 12(1)关于知识组织的理论知识组织是在图书馆学、情报学的分类系统和叙词表研究的基础上发展起来的。与传统的文献组织以文献加工为本位,揭示文献所载的知识内容不同,知识组织是以知识单元为加工本位,它不仅揭示文献的学科、主题内容,而且更注重揭示文献所载的知识单元。知识组织将文献和信息中所包含的知识内容

5、用语词和概念表达,采用知识工程中的知识表达方法OAV三元组法进行知识标引和组织,能更有效地对网络信息进行组织和检索。关于知识组织的理论基础还包括整序、概念学、数学方法、系统科学、知识工程、心理学等。13(2)系统科学理论系统科学的思想是20世纪20年代由奥地利学者贝塔朗菲提出来的,他把系统定义为“相互作用的诸要素的复合体,认为系统的定义可以确定为处于一定的相互关系中并与环境发生关系的各组成部分的总体。14(3)耗散结构理论该理论是由比利时布鲁塞尔学派领导人普里高津教授于1969年在理论物理与生物学国际会议上首次提出来的,这一理论着重从“非平衡”和“开放系统”两个方面,论证了那些存在进化发展的系

6、统有序性增加的原因。所谓耗散结构是指一个远离平衡态的开放系统,通过不断地与外界交换物质、能量,在外界条件的变化达到一定的阈值时,从原来的无序状态转变为在时间上、空间上或功能上的有序状态,这种在远离平衡情况下所形成的新的有序结构,就称为耗散结构。15(4)协同论是由前西德科学家哈肯于1970年提出来的,是一门专门研究系统进化普遍规律的科学,它研究由许多子系统构成的系统(如电子、原子、分子、细胞、器官、生物、社会等)是如何通过协作从无序到有序演化的规律,在对系统进化规律研究的具体或普遍程度上,协同学比耗散结构理论更进了一步。而信息系统正是由许多子系统构成的,如何建立各子系统之间的协同作用机制,使信

7、息系统由无序向有序转化是信息组织研究中的一个重要课题,因此协同学也是信息组织的理论基础之一。16(5)突变理论 是现代数学的一门新兴分支学科,是20世纪70年代由法国数学家勒内托姆首先提出来的,它用形象而精确的数学模型来揭示和预测事物的连续性中断的质变过程。突变理论指出系统的熵可以增加也可以减少,这种熵增、熵减可以在宏观无限小的时间内突然发生。突变熵减少产生的有序性,可以抵消、战胜自然界某些自发熵增趋势,有可能造成有序性的发展,由此得出突变理论的一个重要观点“突变是产生有序性的重要源泉”。因此突变理论为信息组织理论的发展与完善提供了理论基础。17(6)信息自组织理论w是信息组织方法的拓展,是信

8、息组织理论研究中的一项新课题。凡是能够不再借助于外部控制而能实现从无序到有序的转变,并维持稳定有序状态的系统,就称为自组织系统。信信息息自自组组织织是是指指作作为为信信息息系系统统组组成成要要素素的的信信息息,由由于于人人与与人人之之间间、人人与与系系统统其其他他要要素素之之间间存存在在的的相相关关性性、协协同同性性或或默默契契性性而而形形成成特特定定结结构构与与功功能能的的过过程程,也也就就是是信信息息系系统统无无须须外外界界指指令令而而能能自自行行组组织织信信息息,自自我我走走向向有有序序化和优化的过程。化和优化的过程。183信息组织的方法基础信息组织的方法基础语言学 逻辑学 知识分类 1

9、9(1)语言学要把庞杂分散的信息组织成有序优化的整体,就必须建立符号系统。有了这种符号系统,信息系统的有序特征才能体现,信息单元的个体特征才能被揭示出来,各种信息单元才能对号入座,被纳入到这种符号系统的框架之中,形成一个便于检索的序化信息集合。尽管各种信息组织符号系统的形式不同,但都和自然语言一样,有着共同特征:即有语词、有词汇、有语法。这就是信息组织的语言学基础。20(2)逻辑学形式逻辑是关于思维规律的科学。信息组织其实就是人脑思维活动的一种外化,它既然是一种思维活动,就必须遵循科学的思维方法。也就是说,进行信息组织工作必然用到形式逻辑的一些方法,信息组织的行为只有符合逻辑思维规律,才能保证

10、信息组织的优化,序化质量。21(3)知识分类分类是人们认识事物的一种最为基本的方法。知识分类是一门研究知识体系结构的学问。信息的主体是知识,信息组织活动必须建立在人们对知识体系认识的基础之上。221.1.3 网络环境下信息组织的内涵 1任意层次的信息内容元素、信息单元和信息集合体系正逐步以计算机可识别和理解的方式被定义、描述、指向、链接、传递和动态组织;2信息资源、信息组织工具、信息系统日益聚合在同一数字介质层面,它们间的动态链接、转换、互操作和集成等正逐步实现;3信息资源系统、信息服务系统和用户及其信息系统,日益连接在同一网络空间,它们之间的链接、交换、互操作和协作也日益成为可能;4各种基于

11、网络、基于知识、基于协作的信息组织工具和系统机制也日益成熟,并可按照开放的、计算机可识别处理的方式进行描述、交换和互操作。231.2 知识组织概述 1.2.1 知识的含义 1.2.2 知识组织的定义 1.2.3 知识组织的方法 1.2.4 知识组织的体系 241.2.1 知识的含义1知识的定义知识的定义 2知识的分类知识的分类 3知识的特性知识的特性 251知识的定义知识的定义国外专家学者的观点:国内专家学者的观点:知识是经过人的思维整理过的信息、数据、形象、意向、价值标准以及社会的其他符号化产物,不仅包括科学技术知识,还包括人文社会科学的知识、商业活动、日常生活以及工作中的经验和知识、人们获

12、取并运用和创造知识的知识,以及面临问题作出判断和提出解决方法的知识。262知识的分类知识的分类1)按按领领域域:哲哲学学知知识识、社社会会科科学学知知识识和和自然科学知识;自然科学知识;2)按按用用途途:科科学学知知识识、技技术术知知识识、文文化化知识;知识;3)按按水水平平:低低级级知知识识、中中级级知知识识和和高高级级知识;知识;4)按性质,普通知识、专业知识;按性质,普通知识、专业知识;5)按载体:隐性知识、显性知识。按载体:隐性知识、显性知识。27 另外,1996年,世界经济合作与发展组织在题为“以知识为基础的经济”报告中,将对经济有重要作用的知识分为四种类型:知事类知识(know-w

13、hat)、知因类知识(know-why)、知能类知识(know-how)、知人类知识(know-who)。也有学者扩充了知识的类型,增加了知时类知识(know-when)、知地类知识(know-where)和知数类知识(know-quantity)。这就是所谓的具有中中国国特特色色的的知知识识分分类类,可以用公式记为K=6W+Q。283知识的特性知识的特性智慧性客观性依附性不磨损性非遗传性增值性共享性 291.2.2 知识组织的定义 知识组织是指为促进或实现主观知识客观化和客观知识主观化而对知识客体所进行的诸如整理、加工、引导、揭示、控制等一系列组织化过程及其方法 301.2.3 知识组织的方

14、法知识组织方法归纳起来主要有:1知识表示2知识聚类3知识分类4知识重组5知识编辑6知识获取7知识存检8知识布局9知识监控311.2.4 知识组织的体系 知识组织体系(Knowledge Organization Systems),是对知识内容概念及其相互关系进行描述和组织的机制,并对各信息对象按照知识结构进行描述、连接和组织,根据自己的知识需要和一定的知识体系来发现、确认、检索和组合相关的信息内容,从而方便地构成新的应用知识系统。32知识组织体系可分为四个层次 1说明性描述2定义性描述3主题图描述4概念集描述331.3 网络信息资源组织 1.3.1 网络信息资源组织的环境 1.3.2 网络信息

15、资源组织的模式 341.3.1 网络信息资源组织的环境 网络信息资源组织的环境与传统文献管理环境的不同主要表现在:信息组织工作的对象有了很大的变化。用户需求发生了很大的改变。信息组织的技术环境有了很大的变化.网络信息资源 351.3.2 网络信息资源组织的模式1Archie系统系统 2Gopher系统系统 3搜索引擎的信息组织方法搜索引擎的信息组织方法 4元数据元数据 5其他信息组织方法其他信息组织方法 361Archie系统系统 Archie组织网络信息资源原理:Archie服务器(全世界设有30多个)自动定期访问因特网上各个匿名FTP服务器,将服务器上的文件随时索引编辑成一个可检索的数据库

16、。当用户要求Archie服务器检索文件信息时,Archie服务器自动搜索自己的数据库,查找与用户提问相匹配的所有文件并将所有文件的FTP地址及目录反馈给客户。这样用户便可使用匿名FTP按地址及目录获取所需文件。目前Archie服务已扩展到提供多种其他的联机目录和信息资源清单,并提供使用Archie的多种途径,包括通过Telnet、通过WS Archie客户程序、通过Web浏览器和通过E-mail使用Archie。http:/archie.icm.edu.pl/archie_eng.html372Gopher系统系统 Gopher是基于菜单驱动的分布式文件检索系统,它可将用户的请求自动转换成FT

17、P或Telnet命令。它是一个浏览索引数据库的非常有效的工具,软件协议遵循客户机/服务器(Client/Server)模式,允许用户在不同的计算机系统下浏览和检索来自不同服务器上的文件。它的人机界面是菜单形式的,在一级一级的菜单的导引下,用户通过选取自己感兴趣的信息资源,就可以对Internet网上的远程机信息系统进行实时访问。383940Archie 和Gopher比较w相似:组织和整理网络资源的方式相似w不同:Archie系统只能提供单一词的检索,而Gopher系统可同时提供两个以上的词检索,并可搭配布尔逻辑运算符的组配功能;Gopher系统以较长的字符串来描述文献,同时配合不同层次的文件

18、目次显示网络资源而Archie系统则无法达到在Archie系统中无法立即查看文献内容,而Gopher系统却可以做到,这是二者间的最大差别413搜索引擎的信息组织方法搜索引擎的信息组织方法(1)目录式分类搜索引擎(2)全文搜索引擎(3)分类全文搜索引擎(4)索引式搜索引擎(5)元搜索引擎(6)智能搜索引擎 42(1)目录式分类搜索引擎搜索引擎是一种专门为组织与检索网络信息资源使用的检索工具,它所起的作用与传统的二次文献相同。目录式分类搜索引擎是将信息系统加以归类,利用传统的信息分类方式组织信息,用户按类查找,如著名的Yahoo。网络分类目录所使用的分类法有主题分类法、学科分类法、分面组配分类法和

19、体系分类法。目录式分类搜索引擎由于网络目录中的网页是由专家精选的,所以网页内容丰富,有较高的查准率,但查全率较低,搜索范围较窄。43(2)全文搜索引擎全文搜索引擎是将网站的每个主页上的所有文字进行组织,建立索引数据库,索引信息包括文档的WWW地址,每个文档 中 单 字 出 现 的 频 率、位 置 等,如AltaVista。全文搜索引擎具有较高的检全率,搜索范围较广,但检准率较低,缺乏清晰的层次结构,查询结果中重复链接较多。44(3)分类全文搜索引擎分类全文搜索引擎是将目录式分类搜索引擎和全文搜索引擎组织信息的方法结合起来,通常是在分类的基础上再进一步进行全文检索,这就克服了目录式分类搜索引擎和

20、全文搜索引擎各自的缺点,可提高检全率和检准率。现在大多数的搜索引擎都是分类全文搜索引擎。45(4)索引式搜索引擎索引式搜索引擎主要是依靠一种被称之为“蜘蛛”、“机器人”等的计算机程序有规律地遍历整个网络空间,根据网络协议和程序自身的有关约定,记录网上的信息,并对其进行加工、整理,将信息加入到索引数据库。根据一定的规则,及时地对数据库进行补充与修改。46(5)元搜索引擎元搜索引擎又称集合式搜索引擎,它将多个搜索引擎集成在一起,并提供一个统一的检索界面。这样省去了用户记忆多个搜索引擎的不便,使用户的检索要求能同时通过多个搜索引擎来实现,从而获得全面的检索效果。元搜索引擎又可分为并行式元搜索引擎和串

21、行式元搜索引擎。http:/ 引 擎 有 FSA、Eloise、FAQFinder、ulika、Askjevves,FSA和Eloise是专门用于搜索美国证券交易委员会的商业数据库,这两个系统中均内嵌了特定领域中的商业知识,并使用推理证明式的自然语言识别技术。智能搜索引擎具有较高的检全率与检准率。484元数据元数据 元数据是关于数据的数据,是用于提供某种资源的相关信息的结构化数据,是对数据进行组织和处理的基础,是传统的书目方法在网络信息组织与管理中的发展。这个术语通过不断地发展逐渐成为用于帮助识别、描述和定位网络电子资源的任意数据。49元数据的特点元数据的特点 元数据是用来描述信息资源的标准,

22、由多个按照规定的编码语言和编码方式来揭示信息资源的属性和特征描述;元数据由多层次的结构组成,通常有内容结构、句法结构和语义结构;元数据的结构和完整性与对信息资源的属性描述和使用环境有关;在不同的资源对象、不同的领域中会存在多个元数据标准,这就引起了元数据的互操作、元数据格式的释读、元数据格式的转换等。50元数据的作用元数据的作用 定位(location):提供有关所需资源的储存位置和信息;探索(discovery):提供有关如何找到所需资源的信息;文件记录(documentation):描述并记录文件的性质与内涵;评估(evaluation):协助使用者判断资源对其之价值;选择(selecti

23、on):帮助使用者决定是否取用该资源。51元数据在因特网上的信息检索中的作用元数据在因特网上的信息检索中的作用 管理大量低网络带宽的数据。支持有效的网络信息资源的发现和检索。分享和集成异构的信息资源。控制限定检索的信息。52元数据存在的问题元数据存在的问题 元数据编制时对元数据格式定义、语义定义、应用规范、内容编码规则等规范机制应有明确的规定;元数据编制工具应能生成开放格式的数据记录,支持元数据传递和转换。元数据编制工具应能嵌入智能化语义分析和格式分析机制,应能与元数据转换和挖掘模块有机融合;元数据编制系统应与公共数据登记系统有效链接,从而支持元数据格式、语义、应用规范等的开放解析;53元数据

24、存在的问题元数据存在的问题由于元数据所描述的资源对象往往是分布于异地的数字对象,因此元数据编制系统应容纳元数据维护机制,包括对由于资源本身变化而引起的元数据变化的检验,以及在资源因保存迁移而变化时对某些参数的重新描述机制;各种元数据与MARC编目数据之间存在相互兼容的问题。54元数据的规范和发展对策元数据的规范和发展对策 建立支持开放搜寻和灵活检索的元数据系统,明确定义元数据检索界面格式,充分利用开放语言;明确定义元数据传递格式,用基于XML的开放机制,可选用已有的标准,例如:METS、SOAP等;明确所采用的元数据格式、应用规范、内容编码规则、元数据编制程序以及其它相关的规则;利用XML N

25、amespace技术,正式建立与这些格式、内容编码规则等的开放链接,保障它们的公共可查询和可获取;55元数据的规范和发展对策元数据的规范和发展对策改良HTML,建立能描述书目信息和其他信息本质和内容的元数据格式和规范;将将之纳入HTML技术体系中;制定可靠的范例记录,通过范例记录及其说明揭示元数据格式及相应编制方法。制定可靠的版本管理制度,有效跟踪所依据的标准或规则的版本变化,及时反映本系统所采用的规则版本;将格式、标准说明和链接形成规范文件提交公共元数据登记系统,保证它们的可检索和可解析。加快元数据体系的规范化和标准化工作,加强对元数据工具功能的完善,及早建立通用的元数据体系。565其他信息

26、组织方法其他信息组织方法(1)数据库组织方法)数据库组织方法(2)超维组织方法)超维组织方法(3)FTP信息组织方法信息组织方法(4)基于多媒体的信息组织方法)基于多媒体的信息组织方法(5)自然语言法)自然语言法(6)分类主题法)分类主题法(7)WEBSOM 57(1)数据库组织方法)数据库组织方法 数据库组织方式是将所有已获得的网络信息资源以固定的记录格式存储,用户通过关键词及其组配查询,就可找到信息线索(即相关站点链接),并通过信息线索直接连接到相应的网络信息资源。这种组织方式利用数据模型对信息进行规范化处理,利用关系代数理论进行数据查询的优化,从而大大提高了数据操作的灵活性,因而成为广泛

27、的网络信息组织方式。58(2)超维组织方法)超维组织方法这是一种基于知识单元的新型信息组织方法,它借助超文本技术实现。超文本技术将文本信息存储在无数节点上,一个节点就是一个相对独立的“信息块”,节点之间用“链”连接,由此组成信息网络,它也可以链接声音、图像、影视等多媒体信息,构成超维检索点。59(3)FTP信息组织方法信息组织方法文件传输协议(FTP)是实现网络信息资源共享的重要方式和有效手段,是一种快速、可靠、高效的信息传输方法,FTP服务器上的信息资源以计算机软件和统计数据为主,以文本和可执行程序软件包的形式存在。FTP以文件目录的形式组织信息资源。60(4)基于多媒体的信息组织方法)基于

28、多媒体的信息组织方法随着计算机多媒体技术的发展,网上的非文本数据如数字化的声音、图像和视频图像等信息也在快速增长,对这些非文本信息进行系统组织,构建多媒体系统数据库,并对其进行灵活而有效的管理,能极大地方便人们对多方位和多层次信息的需求。近年来出现了一种新型图像检索方式基于内容的图像检索(Content Based Image Retrieval,CBIR),它是一种根据图像的可视特征如图像的颜色、纹路和形状等对图像信息进行组织,用与图像有关的文字对图像进行说明和注解,检索时使用传统的数据检索方法,根据关键词提问和查找所需的图像。61(5)自然语言法)自然语言法即利用自动分类、文摘技术等,根据

29、信息的标题、内容自动分类,建立起必要的索引库;或自动抽取信息的标题、文摘、全文中的关键词进行自动标引,再使用后控词对标引加以补充、规范,以建立索引库。检索效果的缺陷在于不够精确,须要对大量的信息进行筛选。搜索引擎中的页面组织与检索即是此种类型。62(6)分类主题法)分类主题法依照网络信息的特点,网络分类法与传统分类法有了很大不同。由于多种检索途径的要求更加突出,单纯使用分类或主题的方法组织知识都满足不了网络信息查询的需要,理想的模式是“分类主题一体化”,在采用分类体系进行系统显示的同时,一般还提供著者、题名、类名或关键词、标题词等多种形式对知识进行揭示和组织。63(7)WEBSOMWEBSOM

30、是一种基于SOM(Self-organizing Map)算法的全文本信息组织与检索方法。它根据一定的语义关系对特定数据库中的纯文本文献进行自动组织,形成一个有序的数据空间,并将该空间中的元素关系投影到一个二维平面上,形成一个可视地图,供用户浏览查询。641.4 网络信息组织中存在的问题 经过有关专家和工作者的共同努力,目前的网络信息组织方法已经初步成型,已经基本上形成了合理的网络信息组织的一套方式,主要组织方式有:自由文本方式超文本方式 主页方式查询器方式 指示数据库菜单方式 信息查询工具搜索引擎 但是,目前网络信息组织工作在各网站的具体应用过程中仍然存在着不少的问题。主要表现在:65(1)

31、没有专门机构对网络信息资源进行集中管理,致使网络信息资源处于无序、混乱的状态。(2)由于网络信息数量的急剧增加和流速加快,远远超过了人们的承受能力,出现“信息过载”现象,使用户对众多的信息无从下手。(3)由于可用信息、可靠信息不断变化,出现“资源迷向”现象,使用户不能有效地利用网络信息资源。(4)网络信息资源的组织缺乏统一的标准,在类目划分时标准不够合理。对信息资源在同一层次的划分标准不统一,出现同时采用两个或两个以上划分标准的现象。这样,在资源划分时就产生了重复和遗漏的现象。66(5)网络信息资源组织在类目的展开中,有不符合基本的逻辑规则的现象发生,存在整体不能包含局部的现象。也就是说,存在

32、一个类目不能包含它的下一层次的子类的现象。这个问题在搜索引擎中普遍的存在着。(6)现有的网络信息搜索引擎不能实现有效的管理,在制作搜索引擎时检准率与检全率很难得到完美结合,致使用户在使用搜索引擎时,经常会搜索出一些毫不相干的内容。(7)分类体系和标引方法存在大量差异,在网络信息检索工具中,搜索引擎的分类体系不统一、类名不规范、分类的层次也不尽合理。各搜索引擎标引方式也没有统一的规范。67(8)网络信息资源的编目控制存在问题,网络信息资源远不如有形形态的资源稳定,无法将传统的编目方式对网络信息资源进行编目,而采用URL记录网络信息的方法还存在一定的局限性,一旦信息存储地址发生变化,就无法找到此信

33、息。(9)大多数网站的动态反映比较多,方便了用户及时地了解最新的信息,但过多的动态反映使信息组织显得没有规律、没有逻辑性、没有层次,也会给用户的检索工作带来不便。681.5 网络信息资源组织的标准 1.5.1 标准规范相关组织机构 1.5.2 网络信息标准化技术委员会 1.5.3 元数据所涉及的标准和规范 1.5.4 网络信息资源标记格式的标准 1.5.5 网络信息资源内容格式的标准 1.5.6 网络信息资源描述语言的标准 1.5.7 网络信息资源组织评价标准 1.5.8 网络信息资源标准化体系的构成 691.5.1 标准规范相关组织机构1.国际标准及我国国家标准:ISO/IEC/ITU及其他

34、25个国际组织制订的标准,GB等;2.国际组织标准:W3C,IETF,DCMI,DOI等;3.国外权威机构标准规范:LC,BC,ANSI等;4.部门行业标准:科技部、文化部等;5.项目与企业规范:MOA2 metadata。701.5.2 网络信息标准化技术委员会TC4:信息和文献标准化技术委员会(ISO/TC46);TC28:信息技术标准化技术委员会;TC62:术语标准化技术委员会;TC86:文献影像技术标准化技术委员会 TC260:信息技术安全标准化技术委员会。711.5.3 元数据所涉及的标准和规范1MARC(Machine Readable Catalogue)机机读目录格式读目录格式

35、 2DC(Dublin Core)都柏林核心都柏林核心 3PICS(The Platform for Internet Content Selection)Internet内容挑选平台内容挑选平台 4CDF(Channel Definition Format)频道定频道定义格式义格式 5MCF(Meta Content Framework)元数据元数据内容框架内容框架 6RDF(Resource Description Framework)资源描述框架资源描述框架721MARC(Machine Readable Catalogue)机读目录格式机读目录格式wMARC(Machine Reada

36、ble Catalogue)是一种传统的数据书目格式,也是一种机读目录格式,是世界各国信息资源的主要表示形式,它提供一整套完整而详尽的流式数据表示规范,是信息描述、存储、交换、处理和检索的基础。732DC(Dublin Core)都柏林核心都柏林核心 Dublin Core简称DC,是国际组织Dublin Core Metadata Initiative拟定的用于标识电子资源的一种简要目录模式,是为描述网络资源、支持网络检索而建立的元数据模式。它一出现就被北美、欧洲、亚洲和澳洲20多个国家认同,不仅图书馆、博物馆,不少政府机构、商业组织正在或准备采用。743PICS(The Platform

37、for Internet Content Selection)Internet内容挑选平台内容挑选平台PICS(The Platform for Internet Content Selection)即因特网内容挑选平台。是由W3C(WWW Consortium)组织开发的标准,是一种描述网上资源的元数据规范。其显著特点是对元数据采用分类定级方式进行描述和控制,以过滤不符合规范的网上信息。这种描述规范适合于对因特网上传递的数据定义、识别、数字签名和对版权的保护等等。754CDF(Channel Definition Format)频道定义格式频道定义格式CDF(Channel Definiti

38、on Format)频道定义格式是1997年3月,微软公司提出了一项元数据规范,它能对结构化的元数据进行编码,交换及再利用,并通过对通常意义上的语义和语法结构的支持提供了在各种不同的元数据体系之间的互操作性。是IT界第一个应用于Web推广技术的频道框架。765MCF(Meta Content Framework)元数据内容框架元数据内容框架 MCF(Meta Content Framework)即元数据内容框架。它是Netscape公司于1997年6月提交给W3C(WWW Consortium)的一个利用XML的元数据描述方案。它可以作为一种单一数据模式和相应的互换格式的元数据框架,采用对象、

39、属性类型、属性值的形式描述数据。MCF 可以描述各种复杂的文件关系,除了Web网页外,还包括图像、题录、频道、站点、人物、场所及事件的描述等等。776RDF(Resource Description Framework)资源描述框架资源描述框架RDF是资源描述框架,它是在W3C的倡导下,由一些metadata团体(包括DC、PICS、Digital signatures等)和一些著名公司与研究机构(如IBM、Microsoft、Netscape、OCLC及University of Michigan等)集思广益制定出的符合多种需要的、功能强而灵活的结构,也是对结构化的元数据进行编码、交换和再运

40、用的一个基础结构,用来支持Internet及WWW上的元数据,使应用程序之间能够在Web上交换元数据,以促进网络资源的自动化处理。781.5.4 网络信息资源标记格式的标准1SGML2HTML3XML4 PDF791SGML(Standard Generalized Markup Language)早在20世纪60年代,IBM就开始研究通用标记语言(Generalized Markup Language,简称GML)来描述文件及其格式。1978年,美国国家 标 准 局(ANSI)将 GML规 范 成SGML(Standard Generalized Markup Language)标准。198

41、6年,国际标准化组织(ISO)发布了SGML的正式文本SGML ISO8879:1986,使SGML成为通用的描述各种电子文件的结构及内容的国际标准,为创建结构化、可交换的电子文件提供了依据。SGML是一种电子文献的格式或描述文献的一种计算机语言。802HTML(Hypertext Markup Language)HTML(Hypertext Markup Language)是专门用来为WWW建立超文本文件的语言,它通过标记和属性对一段文本的语义进行描述,如在浏览器中显示什么内容、文本格式、字体、颜色等等。HTML属于解释性语言,它通过链接将不同的HTML文档链接在一起。用户也可通过URL(U

42、niform Resource Locator,统一资源定位器)访问Web页。813XML(eXtensible Markup Language)XML(eXtensible Markup Language)是可扩展标识语言。W3C的XML工作组是在1996年的SGML工作组的基础上成立的,于1998年2月正式推出XML1.0版本。W3C采取了简化SGML的策略,在SGML基础上,去掉语法定义部分,适当简化DTD部分,并增加了部分互联网的特殊成分,是SGML的一个简化了的子集。XML可以和HTML结合使用,它借鉴了HTML的形式,并且进一步发挥了它的严谨性。824 PDF(Portable M

43、arkup Language)PDF是元数据的描述框架和标记语言,是Adobe公司开发的电子文件格式。这种文件格式与操作系统平台无关,是在Internet上进行电子文档发行和数字化信息传播的理想文档格式。PDF格式文件目前已成数字化资源事实上的一项工业标准。831.5.5 网络信息资源内容格式的标准1基本编码标准基本编码标准2特殊信息编码标准特殊信息编码标准3图像、图形标准图像、图形标准4音频和视频格式标准音频和视频格式标准5三维信息格式标准三维信息格式标准 841基本编码标准基本编码标准 网络信息资源的基本编码必须遵循国际和国家标准:外文编码必须遵循ISO/IEC10646/UNICODE(

44、GB13000-1993),中文编码应优先遵循ISO/IEC10646/UNICODE(GB13000-1993),同时遵循GB2312-1980和GB18030-2000。如:1980年颁布的,信息交换用汉字编码字符集基本集(GB231280)公布的汉字库中有6763个汉字。国际标准化组织于1993年颁布了ISO/IEC 10646标准,共收录了20902个CJK汉字。还有许多其它文种的相关标准等。852特殊信息编码标准特殊信息编码标准 特殊信息编码,如数学符号和公式、化学符号、矢量信息、地理参数等,应遵循基于XML的标记标准。在没有国际和国家标准的情况下,应该优先W3C和OASIS的有关标

45、准。例如在适量数据方面可遵循SVG,在多媒体信息方面可遵循SMIL,在语音信息方面可遵循SSML,在数学数据方面可遵循MathML,在地理信息方面可遵循GML,在化学信息方面可遵循CML等等。863图像、图形标准图像、图形标准(1)TIFF(2)JPEG(3)PNG(4)MrSID(5)DjVu(6)SVG87(1)TIFF(Tagged Image File Format)TIFF(Tagged Image File Format)是档案文件的存储格式,Aldus公司在1986年设计并发布的,已经成了一个工业标准格式。由于是无损压缩,自加工完后的各种应用都可以根据存储格式进行加工转换,用于网

46、上显示和传输。TIFF是基于标记的格式,用以存储和交换光栅图像,TIFF通常用来描述产生于扫描仪、帧接收器及绘图程序的数据,它能够以集中彩色空间来描述二级灰度、灰度级、调色板彩色和全彩图像数据,有四种基本的TIFF内部格式:位图、灰度级、调色板彩色和RGB彩色。88(2)JPEG(Joint Photographic Expert Group)JPEG联合图像专家组,是屏幕显示、网络传输与打印格式,是丢失少量信息的压缩格式,所有主要的计算机平台和Internet Web浏览器支持JPEG格式。压缩文件小,影像质量用于显示和传输是完全可以接受的。采用JPEG(ISO 10918-1)或者PNG(

47、W3C标准)。涵盖JPEG格式的ISO标准定义了许多类型的JPEG格式,如基线JPEG、无损JPEG以及近来引入的JPEG-LS。基线JPEG是目前使用得最流行的格式。对一幅容量为1MB的彩色图像,JPEG可将其压缩至仅有30KB,而且基本上不损失图像原有的品质。JPEG还支持16M色彩即24位色或真彩色,典型压缩比为4:1。89(3)PNG(Portable Network Graphic)PNG便携网络图形,它的格式是GIF的后继方案,主要采用W3C标准,开发于1995年期间,已经被CompuServe采用以替换GIF。从Web的角度来看,PNG比GIF有更多的优点,如频道(可变的透明度)

48、、纠错(跨平台控制图像的亮度)、二维交错以及稍好的压缩质量。PNG支持以调色板为基础的图像(8位),高达48位的RGB(“真彩色”)或16位灰度级。PNG图图像像不不象象基基线线JPEG那那样样,保保存存及及再再保保存存都都不不会会降降低低其其质质量量,这这对对中中间间阶阶段段编编辑辑的的存存储储非非常常有有用用。照片图像在编辑之后转换成照片图像在编辑之后转换成JPEG格式比较好。格式比较好。90(4)MrSID(Multiresolution Seamless Image Database)MrSID是地理图像信息或者古籍善本采用MrSID商用标准,可以在几乎不影响原始高分辨率影像质量和精度

49、的情况下,把原始数据压缩到5%以下,现在多幅影像可以自动镶嵌到一起,在本地或Internet上浏览。MrSID和所有主流GIS软件和Web浏览器兼容。MrSID是一个功能强大以小波变换为算法的图像压缩、浏览工具,也是一种数据格式。它真正实现了海量栅格数据在本地、标准网络、INTERNET及无线网络间的方便传输。91(5)DjVuDjVu图形/图像的新压缩标准,是一种商用标准,是LizardTech公司从AT&T购买的图像压缩技术,DjVu图片可以使用标准浏览器打开。DjVu是是一一种种经经优优化化用用于于扫扫描描压压缩缩的的新新型型文文件件格格式式,与与传传统统的的图图像像压压缩缩格格式式相相

50、比比,DjVu压压缩缩速速度度更更快快,压压缩缩比比更更大大,图图像像更更加加清清晰晰(在同样条件下,其压缩速度比PDF格式快150倍,比JPEG或者GIF格式也要快上20倍),网络传输速度也更快。它适用于对图书、杂志、报纸、古籍等的扫描压缩和存档。92(6)SVG(Scable Vector Graphics)SVG(Scable Vector Graphics),可伸缩矢量图像,是一种基于XML的开放的矢量图形描述语言。SVG图像是与XML1.0兼容的文档,SVG元素是指示如何绘制图像的一些指令,阅读器(Viewer)解释这些指令,把SVG图像在指定设备上显示出来。使用SVG可以在网页上显

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服