资源描述
编号:
山东省统计科研重点课题
申报书
课 题 名 称:基于非结构化数据的专家综合评价技术研究与应用
课 题 负 责 人:
联 系 电 话:
负责人所在单位:
山 东 省 统 计 局 制 表
2016年4月17日填
课题名称
基于非结构化数据的专家综合评价技术研究与应用
课题负责人
负责人所在单位
山东职业学院
课题组成员
研究起止日期 2016年6月至 2017年 6月
一、申请理由(研究目的、意义及研究成果拟达到的目标)
1.研究目的
随着人类社会由信息社会迈向知识社会,专家资源己成为是各类组织中最有价值的核心资源,无论是在政府部门还是企业工厂等社会生产部门中都需要那些拥有丰富专业知识和技能的领域专家组织团队来指导研发、攻关技术难关,以此提高工作或生产效率。例如在政府的科技部门中,为了使科技项目评估、科技成果评奖等工作顺利展开,政府部门一般都建立有一定数量的专家信息库,在课题评审、成果鉴定时,就从专家信息库中挑选与项目研究方向相关的专家组成评审小组。但要在海量的网络信息里找到合适的专家并不是一件容易的事,而人工蹄选获取方式是非常耗力耗时的。由此在组织内部通过输入关键词如何能够方便简单地查找该查询领域合适的权威专家信息成为一个重要的研究课题。
2.研究意义
在传统的Web搜索引擎中,例如百度、Google、Yahoo等较有代表性的搜索引擎,已经成为人们查找获取网络信息的主要途径,依靠索引和关键字匹配技术找到各方面的相关网页并按相关性排序返回结果,极大提高信息查找效率,很大程度上改变了人们的生活工作方式。但如果需要通过传统搜索引擎获取相关专家,还必须借助人工方式逐个查看召回的文档信息,从中判断与查询相关的专家信息。另一方面专家的研究、内容和领域也是不断变化的,主要特点是以非结构化信息为主,表现形式为科研论文、项目文档、成果鉴定文件等。这些因素使得专家检索不能通过简单的关键字匹配就满足要求,而是要对专家的研究论文等非结构化数据的挖掘与分析,勾画出其涉及的研究领域,并通过智能综合评价系统,定量评定专家相关领域的研究水平,准确描述专家,为企业、政府机构等组织提供准确查找专家服务。研究专家检索方法和技术对专家进行评价,针对特定机构构建专家检索系统对政府机构、企业等组织有重要意义,专家检索可以根据用户需求找到具有特定经验和技能的人,是企业非常有价值的辅助管理工具;并且促进组织和组织之间的信息和知识得以共享,对实现各组织隐性知识的转移和共享、增加组织内部人员交流、加强组织内外部人员协作、为项目或团队挑选合适人选等具有积极的作用。总而言之,专家检索有效地管理企业员工的知识和技能,对提升生产效率、创新能力和增强竞争力具有重要的支撑意义。
3.研究现状
近年来,为了动态挖掘组织内部相关资源评价专家专长,国内外展开了一系列相关研究,TREC企业检索任务中的专家检索子任务在一定程度上代表了当前专家检索研究进展。
作为Web Track的后继项目,TREC于2005年起增加了企业检索(Enterprise Search)任务,并设立企业专家检索子任务,从2005年到2008年共举行了三届,该任务利用企业内部的网站网页、共享文档、电子邮件、数据文件以及日志等作为企业数据集,对于给定的查询条件,参与者构建专家识别和专家排序检索模型,并将得到的相关专家列表等结果返回给TREC组办者进行测评。它主要是提供一个公共评测平台,为研究员根据组织检索人物,对专家检索方法和技术进行经验性评价,极大地推动了专家检索技术的发展。目前针对专家检索主要有以下几种方法:基于文档的专家检索方法、基于候选专家的专家检索方法、基于话题模型的专家检索方法和基于链接分析的专家检索方法。
Balog等人提出了两种基于语言模型的专家检索策略:一种是基于专家的建模策略;另一种是基于文档的建模策略。(1)文档语言模型首先对每个候选专家,在企业知识库中找出与其相关的所有文档,然后在候选专家和与其相关文档之间建立一定联系,用来表示候选专家与文档之间关系的相关性程度。给定査询条件,使用文本信息检索模型对文档进行评估,结果得到每个文档都有一个得分,用来表示文档与查询之间的相关性程度。最后对于每个候选专家,使用某种形式将各个相关文档的得分结合起来,从而得到每个候选专家的最终得分。(2)专家语言模型首先从企业知识库中识别每位候选专家并提取出相关信息,然后利用这些信息构建一个描述候选专家所拥有的知识和技能的知识说明文档,而这个文档就相当于候选专家的“简历”。当系统为所有候选专家都构建简历完成之后,候选专家与用户所提交的查询的相关程度就取决于这个“简历”和该查询的相关程度。最终,系统按相关程度高低将专家列表返回给用户。
为了从更深层次的隐含语义上抽取专家的研究领域,也有学者使用话题模型对专家进行建模。王美姣在文献中针对基于文档的方法忽略了用户输入查询与专家在隐含语义上的联系,提出了话题模型和文档相结合的方法,该方法对查询和文档建模单词-主题-文档关系,而不是使用语言模型建立单词-文档关系。李春英等人在文献中使用概率主题模型从作者发表的论文中提取主题向量作为学者的研究方向。刘健等人在文献中使用话题模型解决依赖候选专家与查询词之间的独立性假设问题,且其可操作性比经典模型更强。
随着社交网络的发展,学者开始研究了专家的合著、问答等社会网络关系,并利用这些关系信息进一步分析和识别出专家,例如Zhang等人对Java在线社区进行了分析,构建提交/回复关系网络图,并利用PageRank算法计算专家专长得分。Karimzadehgan等人利用组织内部管理者、上下级、同级等层次关系,基于相邻专家(节点)拥有某些共同知识的特点,提出一种基于组织层次结构的专家检索方法。另外Deng等人将社区概念引入到专家检索中,把“社区”作为专家与查询词之间关联的桥梁进行建模。这类方法都是基于随机游走模型,但存在一个重要问题就是单纯利用链接的信息对专家进行建模,忽略了主题的信息,可能导致查找出来的专家并不符合用户所要求的专业领域。
在专家检索系统方面,目前国外己经有一些比较典型的学术领域专家检索系统,ArnetMiner主要是针对计算机科学领域的知识服务平台,根据输入的关键字可查找到相关的专家、论文和机构,并提供社会网络分析功能;INDURE是拍杜大学和印第安纳经济公司合作的项目,是可以搜索研究者及其成果的搜索引擎;Microsoft AcademicSearch不但可以提供专家、论文等方面的检索,还可以对合作者、引证等关系进行可视化。而国内武汉大学的陆伟等采集武汉大学内部网页信息和万方数据库中专家的论文信息作为数据源,借鉴传统信息检索方法,设计并实现了以武汉大学为例的组织内专家检索系统一些学术数据库例如维普数据库、万方数据库等利用自身的数据库资源,构建了学者检索引擎,为用户提供通过姓名,作者学科等专家检索功能。
综述所述,目前通过挖掘专家相关非结构化文档对专家进行建模,体现了专家的专业知识与技能,但并没考虑专家的权威性,存在专家信息孤立缺乏关联问题,例如某一专家虽然发表了许多论文,这就只说明了该专家的自身有一定的专业水平,但并不能说明该专家的学术成果对别人的影响程度。而利用社会网络关系来评估候选专家的权威性,可以据此来排序候选专家,此类方法缺乏对领域主题支持,搜索出来的转存在话题漂移问题。
二、主要研究内容及研究成果的框架体系
1.研究内容
本课题研究内容主要包括两部分:一是研究融合专家文档内容和专家引用关系的专家综合评价技术;二是研究构建专家检索系统。
融合文档内容和专家引用关系对专家进行评价,并进行检索。在获取到专家的非结构化数据后,使用基于统计的中文分词技术对文档进行分词,统计分析每个词项在文档中出现的频率,在此基础上基于专家语言模型计算词项与专家的相关度,对词项建立特征构建内容特征库。同时分析抽取文献引用信息,计算关系权重构建专家引用关系网络。然后基于专家引用关系网络使用相关性传播模型对内容特征更新提升,达到平稳状态或经过有限次迭代后,融合专家文档内容和引用关系对专家研究领域建立特征构建专家特征库。用户检索,用户输入査询后,使用中文分词技术切分查询成多个查询词,对于每个查询词从专家特征库中搜索匹配特征,读取特征值作为专家关于该查询词的评价得分。假设每个查询词相互独立,根据乘法原理合并所有查询词得分,从而得到对专家在整个查询中的综合评价,然后按序返回专家列表。
基于融合专家文档内容和专家引用关系的专家评价方法,将其应用在中文专家检索系统。详细介绍了专家检索系统设计和实现,首先分析了相关需求,对专家检索系统的整体框架、专家检索流程、核心功能模块的功能做了详细设计,最后开发一套专家检索原型系统并应用在某大型医药企业中。
2. 研究成果的框架体系
第一章绪论。主要介绍了本课题的研究背景及意义,专家检索方法及专家检索系统的国内外研究现状,阐述本课题的主要研究内容,并对本课题的组织结构进行了说明。
第二章相关技术研究。本章主要介绍专家检索的相关技术和链接分析技术,首先对目前的一些专家检索方法(包括查询扩展方法、基于文档的专家检索方法、基于候选专家的专家检索方法、基于投票模型的专家检索)的原理做了系统的介绍,接着阐述引文网络的相关理论基础,然后介绍链接分析的相关技术原理,对PageRank算法存在的问题以及解决该问题的方法作了说明,并对相关性传播的一般框架作了介绍。
第三章系统设计。根据专家检索系统的相关需求,给出了系统的整体框架设计,对系统的各个模块的功能、工作流程、技术原理作了详细的说明。
第四章专家综合评价方法。针对目前专家检索方法存在的问题,融合专家相关文档内容和专家引用关系对专家进行评价,然后按序返回专家列表结果。其中详细讨论融合专家文档内容和专家引用关系对专家进行综合评价步骤和用户检索专家的过程,并给出了公式的推断过程。另外阐述专家引用关系的抽取、权重计算等过程。
第五章应用与分析。实现了一个专家检索系统,首先介绍了系统各个组成部分,然后对各个功能进行了详细的介绍和运行展示。实际应用表明专家检索系统能够准确地对专家专长进行评估,并能找到了业内具有权威性的领域专家,能够找到符合用户需求的专家。
最后,总结与展望,对本次研究所做的工作以及存在的问题进行了总结,探讨未来进一步研究及发展方向。
三、课题研究的技术路线和主要研究方法
本课题在分析相应需求和技术的基础上,建立三层体系结构,分别是信息采集、特征构建和专家检索三大部分,并重点研究了特征构建和专家检索两部分。最后实现了一个专家信息检索系统,并应用在某大型医药企业中,该系统能够为企业寻找出相关领域的专家,帮助企业解决难题,提高了企业的工作效率,具有较强的应用价值。
使用到的主要研究方法包括:基于候选专家的专家检索方法、基于文档的专家检索方法、基于投票模型的专家检索方法、查询扩展方法、链接分析方法、 PageRank 算法、相关性传播模型
四、课题负责人和课题组成员的研究能力及完成课题的保证条件
课题负责人有丰富的学术经历和背景,参与省部级课题2项、主持厅级课题6项、校级课题多项,参编著作3本,发表论文10余篇,其中核心期刊2篇,外文论文2篇,并被EI收录。
课题组成员常年从事法律研究工作,均具有硕士以上学位和讲师以上职称,其中教授1人、副教授2人、讲师1人,有较强的学术研究能力和经历,组成结构合理,全部为中青年研究人员。
本课题研究依托山东职业学院进行研究,本学校有完善的资料室,有充足的研究时间和制度保障。
五、课题负责人所在单位意见
单位盖章
年 月 日
六、申请类别选择(请划√,可单选或多选)
重大项目 ( )
重点项目 (√ )
一般项目 (√ )
七、省统计局科研所审核意见
负责人签名:
年 月 日
八、省统计局科研领导小组及专家评审意见
负责人签名:
年 月 日
展开阅读全文