基于领域本体的电子学习资源库模型(终稿).doc

资源描述

基于领域本体的电子学习资源库模型摘要: 随着电子学习系统快速的发展，电子学习资源呈现爆炸式的增长，如何有效地组织海量电子学习资源成为构建高效电子学习系统的重要因素。针对现有资源库在资源组织方面存在的不足，提出了一个基于领域知识本体的电子学习资源库检索模型，该模型利用领域知识来构建领域知识本体库并通过抽取电子学习资源元数据构建元数据库，通过映射关系完成对电子学习资源的语义组织，并在此基础之上构建一个语义检索模型，以有效地解决现有电子学习资源检索中丢失语义背景的问题，使检索结果在查全率、查准率方面有所提高，更加符合用户的需求。 关键词:电子学习资源库；检索；语义；领域本体；元数据 abstract: with the rapid development of e-learning system, e-learning resources grow explosively. how to effectively organize e-learning resources is a key factor of constructing efficient e-learning system. concerning the existing resources organization deficiency of e-learning resource library, this paper proposed an e-learning resource retrieval model based on domain ontology. this model built a domain knowledge library by making use of the domain knowledge and constructed e-learning resources metadata database by extracting resources metadata, realized semantic organization of e-learning resources through mapping relations, and constructed a semantic retrieval model on this basis, in order to effectively solve the problem of the loss of semantic background in the e-learning resource retrieving. the model has also enhanced the recall rate and the precision rate on the retrieval results, and it is more in line with the needs of the users. key words: e-learning resource library; retrieval; semantic; domain ontology; metadata 0 引言 随着信息技术的发展与普及，以此为基础的电子学习技术也得到了大家的充分重视，在世界范围为掀起了教育资源建设热潮。各国在教育资源建设方面也投入了大量的资金：美国国家自然科学基金投资1亿美元建设了nsf/abpa/nasa数字图书馆，还投资3000万美元建设美国数字图书馆联盟项目；英国高等教育基金计划投资1500万英镑作为“电子图书馆”的启动资金。国内的教育信息化经过10多年的发展，教育资源建设也得到了长足的进步，cnki数字图书馆已成为全世界最大规模的知识信息资源基地，建成了《中国期刊全文数据库》等系列数据库［1］。 随着大规模教育资源的建设，电子学习资源组织方面的问题日益凸显，学习资源利用率低下、共享不足造成重复建设、出现资源“孤岛”等问题，这些问题严重影响了电子学习的发展，已经成为电子学习领域亟待解决的问题［2-3］。许多研究者在这方面也做了大量的研究，本体论的提出为解决电子学习资源组织方面的问题提出了一个解决途径，人们尝试利用本体的语义表达能力来实现电子学习资源的语义组织和语义检索。文献［4］提出了一个语义扩展方法，首先建立词汇数据库，然后通过计算数据库中词汇的语义距离对用户的查询进行语义扩展；文献［5］中，作者设计了一个搜索引擎swoogle，它是基于爬虫的语义web信息检索系统，可以对网络中的语义web文件进行检索，并利用本体排序算法对返回的结果进行排序；文献［6］以产品信息检索为例，研究了产品信息检索系统框架以及语义相似度算法，提出了一个基于本体的产品信息检索模型；文献［7］以玉米种植领域为例，提出了基于领域本体的语义标注方法以及用户查询处理和查询推荐算法，设计了一个面向玉米种植领域的语义检索系统。 本文以“计算机网络”领域为例介绍了领域本体构建，提出了一个基于领域本体的语义检索模型，并深入研究了知识映射。基于领域知识本体的语义检索主要利用领域本体表示某一领域知识概念以及它们之间的语义关系，将用户输入的关键词转化为本体概念，通过语义相似度的计算扩展概念并建立知识映射以实现语义检索的效果。  1 基于领域本体的电子学习资源库模型 在以上研究的基础上，本文提出了基于领域本体的电子学习资源库模型，该资源库模型主要有三个库组成：本体库、元数据库以及资源库，如图1所示。 本体库存放的是领域本体。电子学习资源库用来存放各种电子学习资源，如各种文本文件、视频文件、音频文件等，是整个电子学习资源模型的基础。学习资源库由教学管理者来管理维护，并搜集学习资源。抽取电子学习资源的属性信息，通过元数据标注形成元数据信息，这些元数据信息就存在元数据库中。 相对于其他基于本体的学习资源库，本文中多了一个元数据库，它具有以下作用： 1）将对电子学习资源库的操作管理转化为对元数据库的操作管理，而元数据数据量小，可以利用关系数据库进行存储，极大地方便了操作管理； 2）便于对电子学习资源进行元数据标注，本体一经建立很难经常进行改动，而资源库中的资源却经常变动不断增加，通过元数据库，资源入库时通过元数据标注接口可以直接对资源进行标注，然后将语义元数据存入源数据库中，标注过程不涉及到本体库，因此便于资源的元数据标注。 该资源库模型中三个库之间具有两个映射关系：元数据库与资源库之间的映射关系，本体库与元数据库之间的知识映射关系。对于元数据库与资源库之间的映射，通过提取资源库中的电子学习资源属性，进行元数据标注形成资源的元数据，然后将元数据存入元数据库中，即元数据与电子学习资源建立了映射关系。对于本体库与元数据库之间的知识映射，在本文第3章中将详细进行介绍。 2 基于领域知识本体的电子学习资源库模型 2.1 领域本体的概念 swartout等于1999年提出：“本体是用于描述或表达某一领域知识的一组概念或者术语集，既可用于组织知识库较高层次的知识抽象，也可以用来描述特定领域的知识。”［8］。该定义说明了本体的用处，本体用于对领域知识建模，是对领域知识的抽象表示。它提供明确定义的共识，是知识共享的基础。本文的领域知识本体包括6个构成要素：类(概念)、实例、属性、关系、公理和规则［9-10］。这些构成要素可以定义某一领域知识本体。 定义1 领域本体是描述某一领域知识的概念或术语以及它们之间关系的集合，因此领域知识本体可以用一个6元组dko(c, i, at, re, ax, ru)表示，6个元素的定义如下。 1)类或者概念(class)。 这个类的概念与面向对象编程语言中的类的概念相似，用来表示事物的分类，从语义上讲，它表示的是实例的集合，是概念的定义描述。 2)实例（instance）。 代表的一个具体个体，从语义上讲，实例表示的就是上述类的一个具体对象或者实例。 3)属性（attribute）。 用于描述类和实例所具有的属性、特征、属性值以及属性约束条件。 4)关系（relation）。 是在特定领域中，概念、实例以及它们相互之间的关联方式。在语义上关系对应于实例元组的集合，形式上定义为n维笛卡儿积的子集，r：a1×a2×a3×…×an。常用的有以下4种关系：part-of、kind-of、instance-of、attribute-of。 5)公理（axiom）。 代表领域知识本体中的永真断言。 6)规则(rule)。 规则是用来描述根据某一断言逻辑推论出的语句形式声明，其形式是if-then。 2.2 领域知识本体设计 本体描述语言主要用于概念形式化描述，目前有许多本体描述语言，如xol、rdf、rdfs、oil、owl等［11］。本文使用owl实现领域知识本体的描述。owl是w3c推荐的本体描述语言标准，它处于w3c的本体语言栈中最上层，是在daml+oil基础上发展起来的，是目前表达能力最强的本体描述语言。根据表达能力和计算能力的不同，owl提供了3种子语言：owl lite、owl dl和owl full，它们满足了不同需求用户的需要［12］。它们的情况如表1所示。 本文采用owl dl语言来构建领域知识本体，它兼顾了表达能力和推理计算能力。 本文使用protégé4.0作为本体开发工具，protégé是斯坦福大学医学信息化研究小组开发的，它是基于java语言开发的开源本体编辑和知识获取软件，具有良好的扩展性，它扩展的owl插件是功能很强大的知识建模工具。 选择本体开发工具和编码语言以后，本文以计算机网络领域知识为例，建立一个领域知识本体。领域知识本体的构建首先需要确定领域知识概念模型，目前有三种概念模型建模方法：自上而下的方法、自下而上的方法、核心扩展法。本文采用核心扩展法，根据计算机网络经典教材，通过头脑风暴法产生计算机网络领域核心概念，通过认真识别、分析最终确定了“传输介质”、“网络类型”、“交换设备”、“网络协议”、“网络拓扑结构”、“网络管理”和“网络体系结构”7个核心概念。概念如图2所示。 3 知识映射 资源库模型中有两个映射关系：元数据库与资源库之间的映射关系，本体库与元数据库之间的知识映射关系。这两种映射关系都是通过语义相似度计算来定义的。而本文中二者的语义相似度计算函数是相同的，因此这两种映射关系本质上是一致的。首先对本体库与元数据库之间的知识映射关系做出如下定义。 定义2 设m=(me,o,fmap)为元数据me到本体o的知识映射，fmap为知识映射函数，定义： fmap=sim(eme,eo)(1) 其中：eme表示元数据概念元素，eo为本体概念元素，sim(eme,eo)为语义相似度计算函数。由上面的定义可以看出，通过语义相似度计算建立元数据库与本体库之间的知识映射关系。领域本体表示了某一领域知识概念、属性以及它们之间的语义关系，形成了一个具有语义的知识概念层次结构，通过知识映射的计算语义相似度，得到具有语义相似性的元数据元素，形成语义关联，从而使电子学习资源也具有语义层次结构。 由于两种映射关系本质上是相同的，参照知识映射关系的定义对元数据库与资源库之间的映射关系做出如下定义。 定义3 设e=(me,r,smap)为元数据me到资源r的映射，smap为映射函数，定义： smap=sim(eme,er)(2) 其中：eme表示元数据概念元素，eo为资源概念元素，sim(eme,er)为语义相似度计算函数。 对于语义相似度的计算，需要遵循一定的基础和原则，所遵循的基础是：用于语义相似度计算的概念集中的元素具有语义相似度，它们之间具有树状层次结构关系，即本文可以将概念元素集看作是一个树状结构。所要遵循的原则如下。 1）量化原则。相似度是一个取值在［0,1］范围的数值，即如果两个概念是同义的，则语义相关度为1，当两个概念之间没有联系时，语义相似度为0。 2）简单性原则。在考虑各种影响语义相似度的因素的情况下，应该使语义相似度计算尽可能地简单，尽可能地降低计算的复杂度。 3）结合概念属性关系。本体中概念的关系有：is-a, instance-of等。概念之间不同的关系，它们之间的相似度不一样。 4）可调节性。它是指语义相似度的计算结果可通过某些参数来调节，语义相似度本身是一个主观性很强的概念，对于不同的应用环境相似度是不同的，因此可调节性保证了语义相似度的计算能满足不同的应用环境需求。 5）对称性。概念之间的相似度计算应该符合下面等式：sim(a，b)=sim(b，a)，这样有便于多个概念间相似度的比较和换算。 本文将综合考虑语义重合度、节点属性等方面的因素，计算语义相似度，得到符合本文实际需求的语义相似度计算方法。 1)节点层次深度。 本体中概念可以看成一个层次树，概念所处层次越深，概念越具体，概念之间的相似度越大。用depth()表示节点j在本体树中的深度，up(j)表示节点j的父节点，设根节点为root，则： depth(root)=1 任一非根节点j的深度计算公式为： depth(j)=depth(up(j))+1 本体概念树t的深度depth(t)为： depth(t)=max(depth(j)) 其中j为任意节点，即本体树的深度等于所有节点中深度最大值。 节点深度相应的语义相似度计算式如式(3)所示： weight1(i, j)=∑min(depth(i),depth(j))n=112n(3) 2)节点距离。 概念语义距离是指概念集中两个概念对应的节点在层次树中构成最短路径所经历的边数，语义距离也是决定语义相似度的一个因素，通常，语义距离越远，说明两个概念关系越稀疏，相似度也就越小。设dis(i, j)为节点i和j之间最短路径的边数，节点距离相应的语义相似度计算式如式(4)所示： weight2(i, j)=2×depth(t)－dis(i, j)2×depth(t)(4) 3)节点密度。 节点密度是概念树中节点的疏密程度。在概念树中，不同的部分节点有密有疏，节点密集的局部说明概念细化程度大，概念就也具体，节点间的语义相似度就越高，因此节点密度也是决定语义相似度的一个因素。设bro(i)、bro(j)分别表示节点i、 j的兄弟节点个数，node(t)表示概念树的所有节点总数，节点密度因素相应的语义相似度公式如式(5)所示： weight3(i, j)=bro(i)+bro(j)node(t)(5) 4)语义重合度。 语义重合度是在概念树中两个节点之间共有祖宗节点个数，即两个概念之间共有的上位概念的数目。语义重合度的大小也决定了语义相似度的大小。设parent(i)，parent(j)分别表示节点i、 j的祖宗节点数，它们的值为从本节点出发上溯到根节点的所有节点数目，parent(i)∩parent(j)表示节点i与节点j的公共的祖宗节点个数。语义重合度对应的语义相似度计算式如式(6)所示: weight4(i, j)=parent(i)∩parent(j)parent(i)+parent(j)(6) 5)属性与实例重合度。 事物的区别和联系是通过属性来进行判别的，如果两个概念具有相同的属性以及实例，则两个概念是有联系的，这种联系就是本文所说的语义相似度。如果两个概念之间相同的属性以及实例越多，则表明两个概念越相似；反之则越相异。同时，属性是具有属性值的，对于两个概念之间的某一属性具有属性值，相同属性值越多说明语义相似度也越高。设attri_ins(i)、attri_ins(j)分别是节点i和节点j的属性和实例的数目，属性以及实例重合度相应的语义相似度计算式如式(7)所示： weight5(i, j)=attri_ins(i)∩attri_ins(j)attri_ins(i)∪attri_ins(j)(7) 其中：attri_ins(i)∩attri_ins(j)表示节点i和节点j相同的属性以及实例数目或者两者某一共同属性的相同属性值数目，attri_ins(i)∪attri_ins(j)表示节点i和节点j属性以及实例和节点i、 j的某一属性的属性值的数目。 综上，基于概念节点特性得到了如下语义相似度计算模型, 如式(8)所示： similarity(i, j)=aweight1(i, j)+bweight2(i, j)+cweight3(i, j)+dweight4(i, j)+eweight5(i, j)(8) 此处有两个问题：1.文中没有weight1(i,j)的表达式，是否需要交代一下?读者会看得懂吗？请明确。2.这个公式中的weight2(i,j)与前面的式(3)的“weight(i,j)2”中的下标表示不一致，请明确到底是哪一种书写格式。其中：a、b、c、d、e分别对应的是这后面有6项，而变量只有5个，是否准确？节点层次深度、节点距离、节点密度、语义重合度、属性与实例重合度的调节因子，而且a+b+c+d+e=1。对于不同应用环境，决定语义相似度的因素权重是不同的，调节因子可以根据需要进行调整。对于不同领域的领域本体，计算语义相似度的各种因素所占的权重是不同的。 4 基于领域知识本体的电子学习资源语义检索模型 在基于领域本体的电子学习资源库模型的基础上，本文提出一个语义检索模型，该语义检索模型包括4个部分：用户查询接口、查询分析模块、语义推理模块以及语义查询模块。如图3所示。 1)用户查询接口。它提供可视化的检索界面方便用户使用。它是用户与系统进行交互的桥梁，将用户的检索信息提交给查询分析模块，将查询模块的检索结果显示给用户。 2)查询分析模块。该模块的功能是对用户输入的检索信息进行预处理。用户在检索时，一般会输入自然语言，其中会包含不具有检索意义的虚词，首先需要抽取具有检索意义的实词，然后对抽取的检索词进行语义标注，确定问题的中心，进行规范化处理。如：用户输入“路由器制造厂家有哪些”,经过处理以后形成“路由器制造商”这样的关键词序列，然后将“路由器”标注为通信设备，问题的中心是制造厂家，完成这些工作方便进一步的语义判断。 3)语义推理模块。该模块实现语义推理功能，主要由推理机构成。语义推理模块接受上一步中标注的检索词，结合推理规则，利用推理机进行语义推理，查询本体库，同时利用推理引擎进行语义推理，得到检索词之间的语义关系，最终产生标准的查询语句用于进一步的信息查询。目前常用的推理机有jena、racer和jess。本文采用jena推理机，同时，本文利用目前流行的sparql作为本体查询语言［13］。“路由器生产商”利用sparql查询语句可以表示为：程序前  select ?producer where { ?x foaf：“foaf”这个书写是否正确，请明确。producer? producer } 程序后 4)语义查询模块。利用语义推理模块生成的标准的查询语句对本体库进行查询，如果是知识检索，则将查询结果返回为用户；如果是资源检索，则利用本体库查询结果继续对元数据库进行查询，然后将资源查询结果返回给用户。这两种查询在图3中无法体现出来，请解释或说明一下。如对“路由器制造商”的查询，可以从本体文件中查找到“通信设备制造商”这个类，然后再找到制造路由器的制造商，因此，可以查询出路由器的制造商有哪些。如果用户选择知识检索，则直接将查询到的制造商返回给用户，如果用户选择的是资源检索，则将查询的制造商名称作为关键词继续对元数据库进行搜索，检索到相应的路由器制造商的资源信息返回给用户。 本文利用java语言搭建检索模型框架，实现模型中模块的基本功能以及模块之间的交互。同时利用protégé 3.4.1所提供的api来访问并获取owl语言所描述的本体信息。并在此基础上实现语义推理模块的功能。另一方面通过将用户查询语句转化为标准的sparql语言表达式，基于sparql查询引擎实现语义推理与查询分析功能。这种机制使得语义检索模型的实现简单且高效，确保了语义检索的准确性与高效性。 对于语义检索模型，它的语义检索步骤如下，如图4所示。 1）用户输入查询信息，然后抽取查询信息中具有查询意义的关键词。 2）利用领域本体计算关键词与本体中概念进行语义匹配，获得扩展概念集合。 3）利用推理机对上面获得的扩展概念集合进行推理，计算扩展概念集之间的语义关系，生成本体查询语言所表示的查询语句。 4）利用生成的查询语句对本体库进行查询，如果是知识检索，则将查询结果返回为用户；如果是资源检索，则对元数据库进行查询，然后将资源查询结果返回给用户。 5 实验与评估 为了评估建立在基于领域本体的电子学习资源库基础之上的语义检索模型效率，建立了语义检索和基于关键词的常规检索实验环境。该实验环境由武汉大学网络多媒体实验室构建的电子学习系统平台搭建而成，主要考查的指标有两个：查全率（recall）与查准率（precision）。查全率是指检索出的相关电子学习资源数目与全部相关的电子学习资源总数的百分比；查准率是指检索出的相关电子学习资源数目与检索出的全部电子学习资源总数的百分比。 在实验中，查准率的计算是通过对查询结果判断是否和给定查询相关以获得有效资源集，有效资源集与查询结果集的大小之比即为本次查询的查准率。而查全率的计算就相对地困难，因为需要针对给定的查询计算整个资源库中的相关资源数。对于像本文所构建的小型实验系统，可以通过浏览资源库的方式以获得被漏检的资源数量。通过上述方式，可以计算出检索的查准率与查全率，对检索效率作出定量的评价。 该实验中使用相同的测试集和检索信息，选取常用的9个计算机网络领域的概念关键词进行检索实验，为了使实验尽可能地做到全面而准确，本实验中用到了3类检索关键词，都是计算机网络领域常用的概念关键词。检索词组一中检索词为概念比较宽泛的检索词；检索词组二中的检索词为概念比较精确的检索词；检索词组三中的检索词为具有语义关系的检索词组，如表2所示。 利用以上测试所用检索词组得到了两种检索方式的查全率以及查准率对比图，如图5、6所示。从图中可以看出，在查全率方面，对于宽泛概念的检索，语义检索方式明显高于关键词检索方式，这是因为基于领域本体的语义检索可以利用领域本体对概念进行扩展，得到该检索词的下位知识概念或实例，因此，检索结果比较全面。对于查准率，在具有语义关系的关键词组的检索方面，语义检索发挥了巨大的优势，它可以更准确地计算出关键词组之间的语义关系，挖掘深层次的语义关系，因此，查准效果明显。 6 结语 本文针对现有电子学习资源库在资源组织方面的不足之处，提出了一个基于领域本体的电子学习资源库模型，该资源库模型包括三个数据库以及两种映射关系。本文重点介绍了知识映射关系，该模型实现了电子学习资源的语义组织。在基于领域本体的电子学习资源库模型的基础上构建了语义检索模型，解决了现有电子学习资源检索中丢失语义背景的问题，使检索系统在查全率、查准率方面的检索效果有所提高，更加符合用户的需求。 参考文献: [1] 朴姬顺,张萍.发达国家网络教育资源库建设的特点分析与启示［j］.陕西师范大学继续教育学报,2005,22(4):94-97. [2] 刘泽文.网络教育资源建设的现状与发展趋势[j].株洲师范高等专科学校学报,2005,10(5):70-72. [3] 张沪寅,李鑫,陆春涛,等.lmod:一种基于本体描述的电子学习资源库模型［j］.计算机应用研究,2011,28(4):1360-1364. [4] mkai w, mckinley l, thompson a. semantic distance norms computed from an electronic dictionary (wordnet) ［j］. behavior research methods, 2004, 36(3):421-431. [5] ding li, finin t, joshi a, et al. swoogle: a search and metadata engine for the semantic web ［c］// proceedings of the 13th acm international conference on information and knowledge management. new york: acm press, 2004: 652-659. [6] gao huiying, zhao jinghua, yin qiuju, et al. ontology-based enterprise information retrieval model ［c］// proceedings of 2009 ieee international conference on grey systems and intelligent services. washington, dc: ieee computer society, 2009: 1326-1330. [7] qi hong, zhang liangliang, gaoying. semantic retrieval system based on corn ontology ［c］// proceedings of the 5th international conference on frontier of computer science and technology. washington, dc: ieee computer society, 2010: 116-121. [8] swartout w, tate a. ontologies ［j］. ieee intelligent systems and their applications, 1999, 14(1): 18 -19. [9] abrahams b, dai w. architecture for automated annotation and ontology based querying of semantic web resources ［c］// proceedings of the 2005 ieee/wic/acm international conference on web intelligence. washington, dc: ieee computer society, 2005: 413-417. [10] wang h-c, hsu c-w. teaching-material design center: an ontology-based system for customizing reusable e-materials ［j］. computers and education, 2006, 46(4): 458-470. [11] chang wei-lun. oncob: an ontology-based knowledge system for supporting position and classification of co-branding strategy ［j］. knowledge-based systems, 2008, 21(6): 498-506. [12] kailash s, prasanha p, prabha v, et al. semantic re-source description for grid ［c］// proceedings of the first asia international conference on modelling and simulation. washington, dc: ieee computer society, 2007: 112-115. [13] prudhommeaux e, seaborne a. sparql query language for rdf ［eb/ol］. ［2011-04-20］. http://www.w3.org/tr/rdf-sparql-query/. 收稿日期:2011-06-27;修回日期:2011-08-11。基金项目: 中央高校基本科研业务费专项（3105005）；武汉市创新人才开发资金资助项目（武人社［2009］97号）；武汉市科学技术局科技计划项目（201010621209）。 作者简介: 张沪寅(1962-),男,江苏苏州人,教授,博士,主要研究方向：e-learning、计算机网络、新一代网络体系结构、应用层组播；张铭洋(1986-),男,河南信阳人,硕士研究生,主要研究方向：计算机网络、多媒体；李鑫(1989-),男,安徽阜阳人,博士研究生,主要研究方向：e-learning、分布式存储、计算机网络。

展开阅读全文