1、,计算机信息检索,第1章 信息检索的学科基础信息学,1 信息的概念1948年,申农在著名论文通信的数学理论中把“信息”解释为“两次不定性之差”,即通信的意义在于消除某种不定性。该论文成为信息论诞生的标志。 申农认为,信息的多少意味着消除了的不确定性的大小。 2 信息的特征 客观性:信息是客观事物运动与状态的反映。 动态性:客观事物的变化是永恒的,持续断的。 相对性:信息对于信息用户永远是相对的。 依存性:必须依附于一定的物质形式(声波、物质载体等)。 可传递可干扰:可跨越时空传递,但是传递过程中时刻被干扰。 可加工性:可以被分析、综合、扩充和浓缩。 共享性:信息可以被一个用户反复使用、或多个用
2、户同时使用。,4 信息的类型(按信息表达形式划分) 文字信息:用文字表达其内容的信息资料,如各种书刊读物; 声像信息:通过声频信号负载和传递的信息,如电影、广播等; 实物信息:通过实物来传递的信息,如样品等; 机读信息:通过计算机阅读的信息,如磁盘、光盘等;4 信息的类型(按信息加工的层次划分) 一次信息: 以信息制作者的研究成果为依据创作(撰写)的,未经信息加工的原始信息,如图书、期刊论文、学位论文等 二次信息: 汇集大量的信息,用科学的方法整序,以简练的语言揭示信息的内容和外部特征,并提供一定的检索途径的检索系统,如目录、索引、文摘、数据库、搜索引擎等,三次信息: 将大量的一次信息全面系统
3、的再度选择、分析和综合,编制成使用目的更明确,效果更理想的检索系统。如综述、百科全书、年鉴。 零次信息: 未经记录或未公开发表的最原始信息,其本身无法通过载体在较大范围内传播的信息。如口头交流、会议文献、学位论文、手稿等。 一次、零次信息是知识的创造,是信息检索的对象; 二次、三次信息是知识的重组,是信息检索的工具。,信息需要所谓信息需要,就是指人们在从事各项实践活动的过程中,为解决所遇到的各种问题而产生的对信息的需求。 信息的价值和作用 信息是使人原有的知识结构发生变化的那一小部分知识: K(S)+ I=K(S+ S) 一个人原有的知识结构(KS)在受到某些信息增量( I)的作用后,便可形成
4、新的知识结构(KS+ S) 信息动机的形成与转化 内在条件:在生活、学习和工作过程中遇到问题时感到缺乏信息的状态,一旦达到较强的程度,被用户意识到,就会转化为信息动机 外在条件:施加于个体之上的各种有形或无形的刺激,其中尤以信息环境和信息意识的影响最为显著。 信息需要的层次:未意识的,潜在的和现实的信息需要。,用户的信息行为 从用户的角度出发,人的信息行为主要表现为信息查询行为、信息选择行为和信息使用行为。 信息检索 当用户意识到自己的信息需要时,就说用户具有了一定的信息需要。用户为满足其信息需要,必然会在某种信息需要的支配下采取相应的行动。用户首先要采取的行动就是信息检索。 信息需要和检索行
5、为的总结:穆尔斯定律:可近性和易用性。可近性:最便于接近的信息源在信息检索行为中将首先被选用,而对信息源的质量和可靠性的考虑则处次要地位。易用性:如果使用户在获取信息时比不获取信息时更费心更麻烦,这个系统将不会得到利用。,信息识辩 不同类型的信息在各类收藏单位有着不同的管理方法,在检索系统中也有不同的著录格式.所以检索者必须具有识别信息类型的能力.信息的选择行为 信息选择是从某一信息集合中把符合用户需要的一部分(子集合)挑选出来。“符合用户需要”是信息选择的基本原则。其核心是: 1) 相关性:(和查全率有关) 信息交流过程中来源与终点之间接触效率的量度,凡是论述同一主题或属于同一领域的文献信息
6、都可以认为是相关的,而不考虑其水平高低; 2) 适用性: (和查准率有关) 用户对查询结果的价值判定,它反映了特定时间查询结果满足用户客观信息需要的程度,它受选择顺序和时间推移等多种因素作用,其判断的有效范围是非常短暂的。,第1章 信息检索的技术基础信息技术,1.2 技术基础信息技术概述 1.2.1 信息技术概述1.2.2 信息检索的关键技术数据库技术 1数据库技术的概念 2数据库的特点 3数据库的构成 4数据库的文档结构 1.2.3 信息技术对信息检索的影响,数据库技术的发展人工管理阶段: A:数据与程序互相依赖,不具有独立性; B:程序和数据一一对应,冗余度大; C:缺乏数据管理的软件。文
7、件系统阶段: 程序和数据有一定的独立性,数据的逻辑结构和物理结构之间可以有一定的区别。总之,只有数据处理,没有数据之间的联系。数据库系统阶段: 1)数据共享,减少冗余度;2)采用特定的数据模型; 3)具有较高的数据独立性;4)有统一的数据控制能力。,应用程序2,应用程序1,应用程序n,数据库管理系统DBMS,数据库,数据库模型 数据库模型是组建数据库的基础。该模型能使数据以记录的形式组织在一起,综合反映企业组织经营活动的各种业务信息,既能使数据库含有各个用户所需信息,又能在综合过程中除去冗余信息。要用一定的数据结构反映企业各部门信息之间存在的内在联系,以使数据能从面向用户的逻辑关系转化成计算机
8、的存储结构,反之亦然。目前DBMS所提供的数据库模型主要有以下三种:,R3,R2,R1,R4,S1,S2,S6,S3,S4,S7,S5,S8,S9,网状型,层次型,关系型,数据库的构成,从用户来看,数据库主要由“文档记录字段”三个层次构成。 1) 文档(file) 文档的概念是指数据库内容的组成的基本形式,是由若干个逻辑纪录构成的信息集合。一般地说,一个数据库至少包括一个顺排文档和一个倒排文档。,用户A,工作区,用户B,工作区,用户A2,工作区,外模式A(子模式A),外模式B(子模式B),概念模型(中间模式),子模式/概念模式映射A,子模式/概念模式映射B,DBMS,物 理 模 型 内 模 式
9、,模式/内模式映射,OS,数据库按内模式、中间模式和外模式三个层次描述,内模式是真正存储数据的,中间模式与外模式仅是一种逻辑性表示数据的方法,而外模式则是根据用户需求,将数据以逻辑方式组织和显示。三个模式间存在两种映射,依靠两种映射才能把用户对数据库的逻辑操作转换为对数据库的物理操作,方便地存取数据库的数据。,数据库三级模式示意图,数据库数据存取示意图,1) 程序A向DBMS发出读取一个记录的命令,命令中要给出记录类型名及要读取记录的关键字的值;2)DBMS分析命令,并取出程序A所对应的子模式I,从中找出有关记录的数据库描述;3)DBMS取出概念模式,根据子模式和概念模式之间的映射定义,决定应
10、读入哪些模式记录;4)DBMS查看物理模式,决定从哪台设备,用什么方式读取那个或哪些物理记录;,应用程序A,应用程序A的子模式I,工作区,状态码,系统缓冲区,DBMS,概念模式,数据库,OS,物理数据库描述,1,2,3,4,5,6,7,8,9,10,11,5)DBMS根据结果,向操作系统OS发出执行读取物理记录的命令; 6)操作系统执行读命令; 7)操作系统将所读取物理记录从外存储器送到系统缓冲区;程序实现存取,因而对用户是透明的,面向用户的是数据的逻辑组织形式;8)DBMS根据概念模式,子模式导出程序A所要读取的逻辑记录;9)DBMS将数据从系统缓冲区传送到程序A的用户工作区;10)DBMS
11、向用户程序A传送命令执行情况的状态信息;11)程序A使用工作区中的数据,并继续运行。,文档结构及检索原理 通常,检索系统提供的数据库由三个相关的文档组成。文档是由有穷相关记录构成的,这些相关记录由以一定的逻辑结构组合在一起的基本元素(如字段等)构成。 例如,按信息的作者姓名字母顺序(或笔划顺序)或序号等特征排列,其逻辑结构是线性结构;若按信息的学科内容分门别类排列,其逻辑结构是一种树形 ;而信息中关键词的相互联系,又是一种网形结构。无论什么样的逻辑结构,只要建立在计算机系统中,必然映射一种存储(物理)结构。 信息系统的数据库为了能够实现随机检索,都建立了顺排文档、倒排文档和索引文档。,记录号
12、主题词 11 计算机、软件、安全 12 软件、网络 13 网络、安全、软件 ,记录号 主题词 11 计算机、软件、安全 12 软件、网络 13 网络、安全、软件 ,标识词 记录号安全 11,13计算机 11软件 11,12,13网络 12,13 ,顺排文档(Sequential File) 是将数据库的全部记录按照记录号的大小排列而成的信息集合,由于它存储有记录的最完整的信息,所以,通常又把它称之为主文档(Master File)。它是数据库的存储实体,也是检索的基础。 其结构为:按某一关键字段顺序存入了数据库的全部记录。 但是顺排文档因为主题词等特征标识无序性,这种存储方式决定了直接用于检索
13、时对记录的存取只能按顺序号进行。如果对每个检索提问式都得按顺序从头到尾进行扫描,这严重地影响检索速度。,顺排文档的检索原理: 采用列表处理技术,首先将用户提问展开为等价的提问展开表;再按提问展开表的内容对顺排文档的每一信息记录的检索标识表依此进行,若匹配,显示或输出命中文献,系统提供,用户需求,用户提交检索式,构造提问展开表,数据库,读入信息,构造检索标识表,检索处理,匹配?,显示或输出命中信息,N,Y,顺排文档检索示意图,倒排文档(Inverted File) 倒排文档就是把记录中的可检字段(如篇名、作者名)抽出,包括单元词、多元词,按某种顺序重新加以组织后所得的一种文档,既可以按不同类型的
14、字段分别组织不同的倒排文档(如主题词倒排文档、作者倒排文档等),也可以把不同的字段组成一个混合倒排文档,如基本索引倒排文档、辅助索引倒排文档 。大大地方便了人们按照信息的属性特征快速地检索所需信息,提高了检索效率。,倒排文档通常有好几个。这是因为不同性质的标识词需要分别建立不同的倒排文档。倒排文档检索原理: 首先,用户提交的检索表达式展开为逆波兰表示,然后将逆波兰形式转换成一组检索命令;再执行这组命令,对倒排文档进行检索,得到满足条件的信息序号;最后根据信息序号从顺排文档中获取命中的信息记录。 关于逆波兰表示法: 波兰逻辑学家发明的一种表达式的表示方法,是把运算项(操作数)写在前,运算符在后,
15、故又称为后缀式。 例如:(a+b)*(c+d)的逆波兰表示为 ab + cd + *; (a+b)*c 的逆波兰表示为 ab + c * 它不符合人们通常的习惯,但适合于计算机处理。利用栈结构先进后出的特性,很容易计算表达式的值。由于逻辑检索式结构与计算表达式的结构相同,因次,将检索表达式转换成逆波兰表示。,系统提供,用户需求,输入检索表达式,构造逆波兰表示,主文档,抽取关键词,检索处理,显示或输出命中信息,倒排文档检索示意图,形成检索指令,倒排文档,顺排文档和倒排文档的主要区别在于: 顺排文档以完整记录为处理和检索单元,倒排文档则以记录中的字段为处理和检索单元。倒排文档相当于检索工具的“辅助
16、索引”。 倒排文档只包括记录的标识、信息的数量及信息存取号,因此在检索时,它必须和顺排文档配合使用。通常先在数据库的倒排文档中查得信息数量和记录的存取号,再从顺排文档调出信息记录,这就像手工检索时先查找辅助索引,然后再查找正文部分的款目一样。 在实际的检索系统中,为了提高检索速度,把上述的倒排文档分成了两个文档:索引文档与存取号倒排文档。索引文档存入检索标识、信息数量及检索标识的磁盘地址,而存取号倒排文档存入索引文档中所有检索标识的磁盘地址及对应于检索标识的所有记录的存取号。2) 记录(Record) 记录是文档的基本单元。它是对某一实体的全部属性进行描述的结果。在全文数据库中,一个记录相当于
17、一篇完整的文献;在书目数据库中,一个记录相当于一条文摘或题录。,3) 字段(Field) 字段是记录的基本单元。它是对实体的具体属性进行描述的结果。在各类数据库中字段的内容都是不相同的一般字段与信息的著录项目相对应。常见的字段名称和代码(也称段码)如下图所示 需要指出的是,各种数据库所设的基本字段大致相同,辅助字段却有很大的差别。辅助字段的数量、名称、使用方法也不尽相同,索引文档(Indexed File) 索引文档是便于随机存取、实现非顺序存储结构一种文件。在检索系统中又称为辅助索引倒排文档。其结构为:存储了同每个关键词有关的信息数(来源于倒排文档)和每个关键词的磁盘地址。,举例:用户联机提
18、交检索提问及系统反馈信息,数据库检索的过程介绍,例如,检索课题:计算机在监狱事务方面的运用 数据库检索的具体过程:1)先把课题编制成检索策略输入系统,系统中的索引文档对检索策略中的“计算机”和“监狱事务”分别与存储标识进行匹配,显示出“计算机”的信息有1299条,“监狱事务”的信息有392条。 2)系统分别到存取号倒排文档中找出这两个词对应的地址号(如12和90),同时找到了含有“计算机”和含有“监狱事务”的所有信息的存取号,并把它们调入内存单元进行组配运算。 3)组配运算的结果,有23条信息符合要求,显 示各自的存取号。 4)系统到顺排文档中按存取号调取命中的三篇 记录,并将记录打印输出给用
19、户。,数据库分类 从检索服务的角度出发,再以数据库所含信息内容的表现形式作为分类标准, 可以将信息数据库划分为三大类;参考数据库、源数据库、混合型数据库。 1)参考数据库(Reference Database) 这是指用户从中获取信息线索后,还需要进一步查找原文或其他资料的一类数据库。它包括 书目数据库:向用户提供信息线索,只能检索出信息的 标题、出处、著者、主题等。可分为文摘和索引数据库 指南型数据库:能提供用户参考、指南的各类信息,如企业、机构等名称、地址电话、人物、出版物、项目、活动等简要描述信息 2)源数据库(Source Database) 在欧洲也被称作数据银行(Data Bank
20、)。它是能够直接为用户提供原始资料或具体数据的一类数据库。,数值型数据库:提供数据或数值类信息,可分纯数值和文本数值型两种,后者仍以数值为主。术语数据库:存储和检索名词术语信息,如电子词典等;图像数据库:存储和检索各种图像或图形信息及文字说明资料;全文数据库:存储和检索文献全文或其中主要部分的信息;超文本数据库:存储内容分割为若干独立利用的结点,使用链路连结点等方式进行存取,形成了特殊的存取模式;新闻型数据库:收录范围极广,索引文摘无法同步,更新迅速;,举例: 例1:需查有关东南亚金融危机方面的文献 分析: 因是近两年来的事情,可选年代较近的库,如上海社科报刊篇名数据库9598.6,又因为有的
21、报刊上称其为金融风暴,所以检索提问式设计为:东南亚*(金融危机金融风暴)。键入后,令机器检索执行即可。 例2:欲了解有关美国新经济政策方面的文献。 分析: 因从时间上看也较近,且业内人士又称其为“第三条道路”问题,所以选择参考消息9697年数据盘或中国学术期刊(光盘版)9798.10,键入:美国*新经济政策第三条道路即可。,第2章 计算机信息检索,计算机信息检索成为今后信息检索的发展方向和主要手段,通过“一个能给用户意见提供大量的,由通信网络、计算机、数据库及电子产品组成的完备网络”(美国政府报告),人们可以在办公室或家里查找信息机构、各类图书馆的信息资料,了解学科专业领域的世界发展水平与动向
22、,查找所需最新各类信息。 计算机信息检索的发展历史 脱机批处理检索、 联机检索、光盘检索、网络化检索。 计算机信息检索的条件 物质条件:由数据库、通信系统和检索终端3部分组成。数据库是计算机信息检索的基本操作对象。人员条件:信息检索的效果与检索人员的素质有着密切的关系。,计算机信息检索的类型1 根据检索的内容可以划分为: 1) 数据检索:其检索结果为数据,例如,从统计数据库中检索人口增长率 2) 事实检索:其检索结果为事实。例如,从中国科技名人数据库中查询某一位科学家的生平与业绩。 3) 文献检索:其检索结果是能够满足用户需求的文献线索或全文,例如,从中国学位论文数据库(CDDB)中检索学位论
23、文。 检索类型的综合分析: 检索课题:循证医学信息管理系统的实践运用分析 关 键 词:循证医学 信息系统 循证医学(运用)实践 1)利用“中国大百科全书”数据库,查询“循证医学”的概念; 2)利用美国著名的医学数据库(Medline)检索“循证医学”和传统医学在治愈率上的比较; 3)利用Springer Link数据库检索“循证医学”的论文情况。,2根据被检索信息出版的时间划分: 定题信息检索 回溯性信息检索 3根据计算机检索工作的方式划分 脱机检索系统 联机检索系统 2.2 信息检索系统 定义:按计算机信息存储的方法建立起来的、供用户检索信息的一种有层次的体系,是表征有序信息特征的集合体。在
24、这个集合体中,对所收录的信息的外部特征和内容特征都按需要有着详略不同的描述,每条描述记录(即款目)都标明有可供检索用的标识,按一定序列编排,科学地组织成一个有机的整体,同时应具有多种必要的检索手段。二次信息或三次信息是信息检索系统的核心和概括。 职能:报道、存储和检索。 特征:信息集合、信息描述、概念标识科学编排、多检索途径 类型:OPAC、各专题、网络数据库、搜索引擎、国际联机系统等,评估指标: 信息的收录范围; 信息特征标识的详略; 摘录及标引的质量; 信息报道的时效; 检索功能的完善。3信息系统类型 1)参考数据库、2)源数据库、3)混合型数据库 OPAC、各类专题、网络数据库、搜索引擎
25、、国际联机系统等。4 计算机信息检索系统的构成 1)信息数据的选择、处理、录入、维护子系统 2)词表和标引子系统 3)检索子系统 4)系统用户接口子系统,计算机存储概述 计算机科学是一门研究信息的结构、存取、处理和利用的科学。而信息的结构和存取又直接关系到处理和利用信息的程序的效率。信息之间的结构关系,就是人们研究数据结构这门学科的重要内容 1 信息的逻辑结构 信息作为被计算机处理的对象,则应抽象成能为计算机处理的数据集合。通常,数据集合中的数据元素不是孤立的,而是彼此相关的,这种彼此之间存在的相互关系就叫做结构。人们将数据元素之间内在的、固有的联系称为逻辑结构。基本的逻辑结构有如下几种 1)
26、线性结构 特点是:数据元素按一定顺序构成一个有限序列,是一种最常用、最简单的数据结构。 2)非线性结构 现实世界上许多问题以非线性结构(又称离散结构)来表示要比线性结构表示明确、方便得多。非线性结构中最常用和最重要的是树形结构和网形结构。,树形结构: 特点是至少存在一个结点(元素);除了根结点和叶子结点外,其他结点最多只有一个直接前趋,并有一个或不止一个直接后继。它能很好地描述信息结构的层次特性,是信息的重要组织形式之一,在计算机科学等领域应用十分广泛。 网形结构: 特点是结点间的联系是任意的,即任何一个数据元素都可以与其他元素相联结。人们通常分有向图和无向图来讨论网形结构。它应用于系统工程、
27、遗传学、控制论、计算机网络、电子线路、统计力学等科技领域。 2 信息的存储结构 当信息由计算机进行处理时,就必须考虑其在计算机存储器中的映象问题,这就是信息存储结构或物理结构。一种逻辑结构可以通过映象得到与它相应的存储结构。信息的两大类逻辑结构线性结构和非线性结构,分别由顺序映象和非顺序映象得到两种不同的信息存储结构:,1)顺序存储结构 在计算机中,主存储器由字的有序序列构成,最常用最简单的方式是以一片地址连续的存储空间顺序存储线性结构的数据元素,即以数据元素在存储器物理位置上的近邻来表示数据元素之间的逻辑关系。其优点是结构简单,容易实现,顺序存取速度较快,可随机存取表中任一元素。这类结构要求
28、在建立文件时候确定文件长度,不允许动态增长,存储分配上存在“碎片”问题。 2)非顺序存储结构 非顺序存储结构的最大特点是不要求逻辑上相邻的元素在物理位置上也相邻,即可以用一组任意的(连续的或不连续的)存储空间存储数据元素。典型的非顺序存储结构就是链式存储结构。某些程序设计语言中的“指针”数据类型可描述链式结构,用指针反映数据元素之间的逻辑关系。采用链式结构,在逻辑上是有序的,而在物理上则可能是无序的。无需事先稳定好文件的长度,且允许文件动态增长;插入和删除记录都比较方便。,3 计算机存储系统 将信息用二进制数表示,称为编码。目前,计算机常用的两种八位编码有:扩充二十进制交换码(EBCDIC码)
29、和美国信息交换标准码(ASCII码)。 计算机处理信息的最小单位是一位二进制数,称为位(Bit);由若干个位(国际上通用的是八位)组合起来称为一个字节(Byte);若干个字节构成一个字(Word)。通常,存储器的基本存储单元为字节,存储单元的编号为地址,存储器的容量为存储单元(字节)的总数。 1)计算机存储系统的结构 计算机存储系统主要是由两级存储器和存储管理软件构成的。存储器是计算机系统最基本的装置。存储器的容量和工作速度是计算机系统的两个重要性能指标。 2)存储系统的基本概念 所谓两级存储器,即主存储器和辅助存储器。,主存储器: 简称主存或内存,是一级存储器,通常在主机中,是CPU能直接存
30、取的地方,总是存放正在处理的指令和数据。一般分为两部分,一部分是系统区,存放操作系统及一些标准子程序等;另一部分是用户区,存放用户的程序和数据等。特点是存取速度快。 辅助存储器: 简称辅存或外存,是二级存储器。它比主存容量大得多,但工作速度低于主存。凡是内存暂时不用的信息都可以存放在外存中。外存和内存之间能够成批交换信息。外存目前多由磁表面存储介质构成,如大容量磁盘、光盘等。 缓冲存储器: 为提高存取速度,人们又在中央处理器和主存储器之间增加了一个小容量高速的缓冲存储器,用以存放CPU当前最常用的指令和数据,它与主存交换信息。,4 信息存储自动化 信息检索的概念最初是由文献信息检索发展而来的。
31、为便于印刷文献检索,首先要将存储文献的某种表示形式有序化,如分类编目、主题标引、文摘等等。这部分信息处理工作需要耗费大量的手工劳动和时间。计算机的引入,不仅使这部分工作得到简化,而且生成的文献信息数据库也是信息检索自动化的基础。 1)自动标引 标引,是对信息进行主题分析,提取代表该信息的特征(如主题词、关键词)的过程。标引的目的是为人们快速、准确地检索所需信息提供方便。因而,在检索系统中,标引质量的优劣直接影响到检索的效率。自动标引就是用机器抽取或赋予索引词。 2)自动标引的方式 A:自动抽词标引 利用计算机直接从信息正文、标题或文摘中抽出能表达信息主题的关键词作为标引词,并自动生成关键词索引
32、或倒排文档。利用,计算机直接从信息正文、标题或文摘中抽出能表达信息主题的关键词作为标引词,并自动生成关键词索引或倒排文档。 抽词标引的前提是人们假设信息中的某些词能很好地代表信息的主题内容。除停用词以外的某些词在信息中出现的频率越大,越能够代表信息主题,被选为标引词的可能性就越大。但问题是并不是所有抽出来的词都能作为信息的标引词。如何从抽出来的词中选定标引词,是自动抽词标引中的关键。 B:自动赋词标引 计算机根据某种特定的标准,从预先编制的词表中选取标引词,用以表示某一信息的主题。赋词标引不是简单的机械匹配,而是选用合适的词去描述信息主题概念。 3)自动文摘 文摘是对一本书或一篇文章所作的扼要
33、摘述,是信息内容的压缩存储。所谓自动文摘,就是利用计算机自动编制文摘。 自动文摘的工作步骤:,完成原始信息的输入,使其成为机读形式;分析机读信息的文本结构和语句,依据某种规则赋予单词和句子一定的权值,以此来确定单词和句子的重要程度;根据计算出的词和句子的权值,选取一组能代表信息主题内容的句子,生成文摘初稿;对文摘初稿进行格式化编辑,形成文摘。 4)自动排序 在信息检索自动化处理中,常用的一种运算就是排序(Sorting)。它的基本功能是一个无序序列调整为一个有序序列,即依据关键字(或字母顺序或权值等等)递增或递减的次序,把一组任意序列变为一个线性有序序列。排序便于自动化处理,可以提高检索速度。
34、 自动排序的方法很多,常用的有:选择排序、快速排序等 随着科技的高速发展,尤其是信息技术的突飞猛进,有理由相信未来的信息系统在传统的印刷型信息系统的基础上,将向网络化、多媒体化、智能化方向发展。其主要特征在于:, 系统模式客户机服务器化。 这一结构是基于网络的一种计算模式,以其开放的平台概念、较高的运行效率及灵活的扩展性能成为当今信息系统结构设计的主流。 完善的网络通信平台。这要求通信网络应全球性、全国性或地区性覆盖,宽带传输,传输速度快等。 智能化人机接口。采用人工智能、专家系统、 超文本等让用户方便地访问各种信息资源。 具有多媒体采集、存储、 加工、检索、传递能力。 具有较强的网络互联能力
35、。通过网关、 网门、智能开关等将分布的系统联成一体,使用户的利用不受时间与空间限制。 提供多种信息服务功能。除传统的数据库外,电子邮政、 文件传输、数字图书馆等。,数字全息数据存储21世纪最有前途的存储技术 21世纪面对的是全新的数据存储市场,对数据存储的要求不仅在容量上而且在性能上要远远超过现在的媒体。最新出现的是视频盘、虚拟现实系统、高级多媒体文件、图像存储器和航空应用。 现在的磁盘可以连接到容量高达太比特的列阵上、传输速度达20兆比特秒,存取时间在10毫秒左右。它们的性能能满足现在的应用。然而,当更新的应用出现时,容量、传输速度和存取时间都必须改进。共用数据库和分布计算将增加对高性能存储
36、的要求。多用户存取同一数据介质(每个用户有独立的数据通路),要求超短存取时间来保证每个数据通路的高传输速度。 数据库数据存储的关键是要耐磁介质具有更高的可靠性,对某些应用也是足够的,但是传输速度一般比磁盘慢,存取时间比磁盘长。 科学家们认为,数字全息数据存储是解决数据库数据存储瓶颈的方法,并达到数据存储长期耐用的要求。由于全息存储高度的并行性和不用运动部件全光学存取数据的能力,它能达到甚至超过每,立方厘米太比特的容量,达到甚至超过每沙吉比特的传输速率以及厘米太比特的容量,达到甚至超过每沙吉比特的传输速率以及纳秒的存取时间。由于全息存储系统中使用折射氧化物介质的耐用性,它具有超过30年的使用寿命
37、。加上它具有可更换极高数据密度介质这样的能力,使全息存储在具有竞争力的价格下,呈现出极好性能 数字全息数据存储在记录过程中,从激光器输出的光束分成两束,一束为信号光束,用来编码信号,另一束参考光束。信旱光束通过空间调制器用方矩阵表示数据。方矩阵透射光时,相当于二进制的“1”,阻挡光时,相当于二进制的“0”。然后信号光束聚焦到全息介质(晶体)上,在那里与参考光束相交,产生干涉图。干涉图与全息介质以下述方法相互作用:原来在空间光调制器的数据以与晶体结构稍微变形的方式传输到晶体内;在读出过程,原来的参考光束自己入射到介质,它与晶体结构中的变形相互作用,再产生原来的信号光束,然后再聚焦到类似于电子摄像
38、机用的检测器列阵上,读出数据。,全息术的特性是,为了有效地读出,参考光束必须与记录光束以相同角度入射到晶体上。这样就可以利用参考光束在不同角度在同一体积内记录多个全息图的优点。象这样系统的总容量等于每面的容量乘以存储在同一体积内的面数。由于全息术的体积特性,实现大容量是可能的;它的另一个技术是利用单面或者多面存取。由于它的数据记录和读出是并行的,实现高速度传输是可能的。又由于参考光束的角度可用电子方法或者光学方法控制,实现快速存取是可能的。 目前,全世界的许多研究与开发机构都在研究数字全息数据存储技术。据报道,美国无线电公司和Northrop公司集中在由重叠大量全息图来增加存储密度。斯坦福大学
39、、亚利桑那大学、罗克韦尔国际科学中心、欧洲和日本进行研究,发展新颖结构来更多复用全息图来增加存储密度。Optitek公司正在评价用现有技术和常规光学技术相结合而研制的新一代数字全息数据存储系统,并计划提供象目前磁盘机一样的功能。HolopLex公司正在研制数字全息指纹记录,系统。罗克韦尔国际科学中心正在研究用于航空的机载数字全息数据存储系统 法国、英国和德国也在研究和开发数字全息数据存储技术。日本几个大的工业研究中心正在集中进行数字全息数据技术研究与开发,特别是日本电话电报公司尤为突出。主要目标集中在现代器件,如CCD、SLM列阵和光束控制器件的集成和图像处理以及控制误差编码的研究和开发上。存
40、储技术研究的最新进展 1)原子力显微镜 用原子力显微镜已可在介质上实现103Git/cm2的信息写入.存储介质是20nm厚的GeSbTe合金.当在原子力显微镜的针尖和介质间施加约0.5V电压时,介质上对应于针尖的小区域形成10nm的凹坑并晶化.晶化区域与未施加电压的非晶态相比,前者电阻率要下降两个数量级.采用针尖读出晶化小区域上的电流变化,就可以实现所存入信息的读出.这样的信息存储方式是一次性写入的,不像硬磁盘和磁光盘那样,存入信息可擦除再重写.,2)扫描隧道显微镜 可进行纳米级超高密度的信息存储,其密度可达到106Gbit/cm2,约为目前硬盘的100多万倍.基本原理是:在淀积于石墨上的石腊
41、分子超薄膜上,用扫描隧道显微镜探针施加脉宽约0.3us的20V电压.结果可形成直径为0.5-1nm、高度为5nm的隆起.这种凸凹隆起可表示“1”或“0”.信息存入和读出的过程可用扫描隧道显微镜来实现.1015位相当于6万亿个汉字的信息量,可相当于北京图书馆全部藏书的信息量. 目前用原子化显微镜和扫描隧道显微镜演示的超高密度信息存储都还是属于信息存入后不可更改的模式,而且记录和读出信息的时间较长,在微秒量级,远大于目前硬盘和磁光盘. 信息存储技术的研究方向 随着近年来超微细加工技术和图像显示测试技术的发展,信息存储正朝着超高密度方向发展.在磁存储领域利用磁力和近场扫描方法预期能实现100Gbit
42、/in2的存储密度. 主要的研究方向有:量子磁盘,近场扫描光学显微镜,磁力显微镜.量子磁盘是利用电子束刻蚀和电镀方法,在镀金的硅基底上生长出,直径为35nm、高120nm、周期为100nm的镍柱。这样的镍柱是单磁畴结构,只有沿柱向的两个量子化存储状态。换算后的存储密度可达65Gbit/in2;近场扫描光学显微镜根据光学原理,聚焦斑的尺度不能小于入射的波长,这就限制了聚焦斑(即信息位的尺度)的进一步减少。为了克服这一困难,可利用光导纤维将激光引到光盘的盘面上。因为光纤可以做到很细,利用这样的技术在Pt/Co多层膜上已实现了80nm尺度的记录磁畴,这相当于100Gbit/in2的存储密度;磁力显微
43、镜的基本原理是用一很细的磁针探测样品的表面的磁力(表面磁矩和磁针间的相互作用力)分布。若表面的微小区域内磁矩沿正z方向的取向为“1”信号,沿负z方向为“0”信号,那么磁探针在表面扫描时由于正负取向磁矩和磁探针作用力正好相反,就能把存在样品内的信息读出,在非晶TbFeCo磁光膜样品上的磁力显微镜进行的信息写入和读出的实验表明,其存储密度亦可接近100 Gbit /in2.,网络信息存储技术引言:随着网络的发展,数据存储也逐渐由单机方式向多机和专用机方式发展。数据的传递与共享也逐渐从依赖主机系统向网络存储系统发展。传统的以服务器为中心存储模式已难以满足日益增长的数据信息存储的需求。为此,网络信息存
44、储技术应运而生。以服务器为中心的信息系统正逐步向以网络、数字信息为中心转移。硬件技术和网络技术的发展,使存储与服务器分离,传统的以服务器为中心的直接存储技术DAS正在向以NAS和SAN为代表的网络存储技术发展。信息存储作为一个独立的系统,将以高速、稳定的数据存储单元接入网络中或组成一个专用的存储网络,用户可以在网络上方便地存取数据,利用客户端浏览器进行访问和管理。,为什么企业如此对存储网络感兴趣? 不同的用户和应用需要访问同一个数据和数据源 专有功能的设备全面提供更高的性能、可靠性和低拥有成本。需求不断上升 习惯使用TCP/IP, NFS和CIFS作为网络协议 要求提供一套具有更大竞争力的应用
45、对应用解决方案 需要降低管理成本和复杂性 可以分段扩展的信息基建系统但又不需要增加人手 可以随意在目前的信息基建系统中从新布局以避免其他硬件和专业开销的成本 1 以服务器为中心的传统的直接存储技术直接存储(Direct Attached Storage,DAS)是传统的以服务器为中心的存储技术。是在LAN应用中最直接、最普遍的存储方式,当前绝大多数存储系统都属于这种类型。DAS技术是将通用服务器的,一部分作为存储设备,该服务器同时提供数据的输入/输出及应用程序的运行。数据访问与操作系统、文件系统和服务程序是紧密相关的。当服务器正在提供服务或用户量增大时,在网络带宽够用的情况下,服务器本身将成为
46、数据输入/输出的“瓶颈”。同时I/O总线也会成为一个潜在的瓶颈,影响到服务器本身功能,严重时会导致系统崩溃,一旦服务器发生故障,信息资源会完全丢失。另外,DAS技术还存在以下不足:1)存储系统与服务器紧密的物理连接,信息存储的应用受到了限制。2)由于SCSI地址数量的限制,单个主机存储容量受限,只能增加服务器和磁盘存储量来扩展容量,管理难度大,成本投入高。 3)需要大量服务器和存储系统。其异构型和数据的分散性,难以实现数据的统一管理,使管理难度加大。目前,这种以服务器为中心的存储方式,已不能适应越来越高的信息存储需求。但是,DAS产品的优势在于价格便宜,在那些数据容量不是很大和对数据安全性不是
47、很高的部门,还有一定的应用市场。,2 以数据为中心的网络存储技术NAS技术(Network Attached Storage,NAS)网络附加存储是一种特殊的利用专门的软、硬件构造的专用数据存储服务器,又有“瘦服务器”之称。它将分布的、独立的数据整合为大型集中化管理的数据中心。它将存储设备与服务器分离,单独作为一个文件服务器存在,去掉了通用服务器原有不适用的大多数计算功能,仅保留提供文件系统功能。NAS设备包括存储器件(如磁盘阵列,可移动存储介质等4)和集成在一起的简易服务器,可实现文件存取及管理的所有功能。NAS的特点:1)简易性:通过集线器或交换机可方便地连接到大型网络系统中,安装、调试、
48、使用和管理非常简单。节省昂贵的管理和维修费用2)安全性:设备内置优化的独立存储操作系统,提供硬盘RAID,支持I/O存储,集成本地备份软件,将NAS设备中的重要数据进行无服务器本地备份。日志文件系统和检查点设计,能及时保护和恢复数据,从而加强系统的安全性。,3)扩展性:提供冗余电源和控制器,可在不间断网络运行的情况下增加或设置存储,可满足全天候服务,保护用户原有投资,有良好的扩展性。目前,清华同方提供的NAS磁盘阵列产品扩展能力极强,它有2个EIDE接口和1个Ultra SCSI接口,允许挂接4个EIDE设备和15个SCIS设备,其最大阵列容量高达1。3TB:。该产品为NAS设备的扩展提供了广
49、阔的前景。4)高性能:不需要通过网络服务器,可直接处理来自网络上多个用户和多种不同操作系统的I/O请求,不仅响应快,而且数据传输速率高。NAS中的简化操作系统固化在IC中,不运行应用软件。当网络主服务器崩溃时,用户仍可以从NAS中读取数据,NAS物理位置灵活,可缩短用户访问时间,提高网络吞吐量和系统性能。5)成本低。支持多计算平台的互操作,用户通过不同的网络协议可调用相同的文档,设备无需改造可用于混合的Unix/Windows 局域网,不用购置价格昂贵的多功能服务器。 NAS诸多的优点,使它几乎适用于所有的企业。相比较而言,它更适用于一个需要公共文件系统的服务器群,如电子邮件服务器组,Web服
50、务器集群等等。,NAS的优势所在 电子商务的首要目标是追求超级的效率。各个公司都希望通过比竞争对手更快地确定新的销售机会、迅速答复客户信息查询以及减少新产品和服务上市时间来赢得竞争优势。 这常常意味着寻找一种保存和索取数据的高速机制。NAS是解决常规文件服务器模型中存在的速度缓慢和服务中断现象的一条途径。文件服务器模型的缺点很明显,在这种设置中,文件服务器安放在存储系统的前端,而存储系统一般通过并行接线配置中的SCSI总线与磁盘阵列相连。多台文件服务器对来自用户和其它服务器的存储请求进行读写操作,并且只有一台服务器访问保存文件的磁盘阵列。因此,这台服务器有可能形成单故障点或瓶颈。 NAS 有效