收藏 分销(赏)

工信部领域知识服务平台分类体系及主题词表研究.doc

上传人:快乐****生活 文档编号:3086031 上传时间:2024-06-17 格式:DOC 页数:10 大小:88.54KB
下载 相关 举报
工信部领域知识服务平台分类体系及主题词表研究.doc_第1页
第1页 / 共10页
工信部领域知识服务平台分类体系及主题词表研究.doc_第2页
第2页 / 共10页
工信部领域知识服务平台分类体系及主题词表研究.doc_第3页
第3页 / 共10页
工信部领域知识服务平台分类体系及主题词表研究.doc_第4页
第4页 / 共10页
工信部领域知识服务平台分类体系及主题词表研究.doc_第5页
第5页 / 共10页
点击查看更多>>
资源描述

1、工信部领域知识服务平台分类体系及主题词表研究1. 研究目的工信行业涵盖了了所有的第二产业和第三产业,占我国国内生产总值的80%以上,如何更好的为这个行业提供高级的知识化服务是促进工业和信息化产业发展的重要任务。本课题旨在从工业和信息化的行业需求出发,认为细分行业提供专业知识服务为核心,研究和探讨如何建设面向行业用户的、服务工业和信息化实业发展的一个全新的知识服务平台为重要的研究目的。2. 研究内容知识服务是指从各种显性和隐性知识资源中按照人们的需要有针对性地提炼知识,根据用户对内容的需求来提供信息服务。构建工信领域的知识服务平台除了需要大量的资源汇集,同时还要与之匹配相关的知识体系作为知识组织

2、的依据。知识体系的构建是实现知识服务平台的核心,知识体系构建的重要通过建立领域分类和相应的领域主题词表的方式,领域分类对于本次研究来说将重点以面向行业用户的需求为主,工信部自成立整合了我国大部分的工业产业部门,国内尚未建立专门面向工信行业的分类标准和主题词表,因此这将是本次研究的核心内容。在实现知识服务的过程中,传统上我们通常在知识服务系统中运用主题分类词表实现信息检索、知识索引、学科导航等服务。但是随着智能化技术和语义服务的发展,在知识服务体系中引入了“本体”的概念,Neches(Neches R, Fikes R E ,Gruber T R .Enabling Technology for

3、 Knowledge Sharing .AIM agazine, 1991 )等人对本体定义为“给出构成相关领域词汇的基本术语和关系, 以及运用这些术语和关系构成的规定这些词汇外延的规则的定义”。本体作为一种能在语义和知识层次上描述概念体系的有效工具, 与规范化的词表如:主题词表、叙词表有着很大的相似之处。特别是随着智能化的应用,本体事实上起到了将知识体系模型化、实例化的作用,它可以以计算机可用的方式进行描述。对于特定领域的本体的构建,国内外的学者已有了一些研究,比较成熟的做法是在主题词表的基础上开发本体,或者将其转化为本体模型。因此以拟定的领域分类和主题词表为基础建立相应的本体模型,是构建工

4、信部领域知识服务平台的一种有效方法。综上所述本次研究的重要内容可归纳为以下三个方面:1) 根据行业需求建立工信领域的分类体系及主题词表;2) 在分类体系和主题词表构建完毕的基础上,开展领域内的本体构建研究。3) 实践性研究,选取一个特定的细分行业进行本体模型的创建,采用RDF资源描述语言对其本体模型进行描述,或直接开发成可供知识服务平台使用的OWL本体模型。3. 关键问题随着工业和信息化技术的发展,不同行业的对于学科交叉融合的知识需求越来越多,基于行业需求的知识服务的需求也越来趋于复杂化、行业精细化。我国目前开发的主题词表大体可以分为综合性主题词表和行业主题词表。综合性主题词表如中国分类主题词

5、表。行业性主题词表有很多,表1 罗列了我国现有的近70个行业的主题词表。中国分类主题词表是一部分类法叙词表对照索引式的一体化检索语言,它涉及了分类法类目52992个,主题词110837条,其中涉及了哲学、社会科学、自然科学、工程技术等各个领域的学科和主题概念。这个综合性的主题词表涵盖了工信领域的大部分行业的知识概念,可作为我们建立工信领域主题词表的基础。但是由于中国分类主题词表是基于中图分类法和汉语主题词表的基础上通过整合和映射形成的一体化主题分类词表,从类目划分上看与行业用户有一定的差别,特别是对于行业分工细化、行业知识的学科交叉化问题,中图分类法是不能完全与之相应的。而行业性的主题词表则比

6、较集中地反映了某一个行业的主题词。工信领域的行业范围较为广泛,也无法选择某一个行业的主题词表与之相应。基于以上现状,建立工信领域分类体系及主题词表需要解决如下关键问题:1) 工信领域分类体系建设一方面需要根据我国行业的标准分类(参考国民经济行业分类)建立工信领域的行业分类体系。建立此体系,可参考中国分类主题词表下与工信领域知识相关的学科的分类体系,调研我国已经建立的其他行业的分类体系和分类方式,综合工信部所包含的各个行业的应用需求,形成一个较为完整的工信领域行业分类标准。分类体系的建设时形成面向行业化服务的基础,在分类体系的建设中需要充足考虑三级以下的细分行业类目的分类方式,比如根据机构名称、

7、根据应用分类等。2) 工信领域主题词表建设主题词表的建设可采用两种方式:一种是基于现有主题词表的整合,一种是基于据采集和记录算法自动构建领域概念层次结构,抽取热点词汇,并在领域专家的指导下补充原有的主题词。第一种方式可基于中国分类主题词表和行业主题词表中与工信领域相关的所有主题词进行抽取整合,这种方式较为方便,准确性高,但是随着领域发展,各个行业都也许有很多新词,对于新兴产业特别是跨领域的交叉产业很也许会漏掉许多重要的主题词。第二种方式的记录构建算法很多,可以采用自动化的方式形成领域概念层次结构,辅助专家拟定词间的属种关系,但是第二种方式容易忽略了低频的领域词汇。因此需要同时采用两种方法互为补

8、充。3) 工信领域分类体系和主题词表的一体化一体化是知识体系构建将为以后的智能化知识服务奠定基础,因此可作为本次研究之后的扩展性研究。本次研究面向的是行业用户,所以其领域的分类体系是基于国民经济行业分类标准来建立。而对于知识服务来说,行业用户所关注的也不仅限于本行业的知识,还包含所属学科体系下的相关知识,因此分类体系和主题词表的映射将存在很多学科分类体系和行业分类体系主题词的交叉,如何建立分类和主题词之间的参照映射关系是本次研究的难点。4) 领域本体的构建方法研究本体的构建因系统和领域的不同而异。国外常见的几种构建本体的方法有:a.IDEF5 法(用于描述和获取公司本体的方法); b. TOV

9、E 法(是指多伦多虚拟公司, 专用于构建关于公司建模过程的知识本体的);c. METHONTOLOGY法(专门用于化学领域本体的构建); d.骨架法(专门用于构建公司本体的, 也是关于公司建模过程中知识本体的开发); e. KACTUS工程法(是针对技术系统生命周期过程中的知识复用问题而构建的一个关于多用途复杂技术系统的知识建模工程);f. SENSUS 法(是关于电子领域的用于自然语言解决的本体构建方法);g. 七步法(用于医学领域本体的构建方法)。对于特定领域本体知识库的构建,目前在国内外学者中研究较为成熟的是在叙词表基础上开发本体,或者直接将叙词表转换为本体。本项目将通过对以上方法的对比

10、研究,选取适合工信领域知识服务的方法,基于本项目主题词表的研究成果进行构建实验。 表1.行业主题词表书名作者出版社出版时间中国中医药学主题词表吴兰成中医古籍出版社2023水利公文主题词表吴文庆,陈献中国水利水电出版社2023肿瘤专业文献分类主题一体化词表廖先珍,黄钢湖南科学技术出版社2023交通汉语主题词表交通部科学研究院人民交通出版社2023综合电子政务主题词表 : 试用本, 范畴表赵新力科学技术文献出版社2023中文主题词表, 人文社会科学类 海外中文图书中文主题词表编订小组台湾国家图书馆2023中国少年儿童文献分类主题词表. 第二表, 主题词分类号相应表中国少年儿童文献分类主题词表编辑委

11、员会北京图书馆出版社2023中国少年儿童文献分类主题词表. 第一表, 分类号主题词相应表中国少年儿童文献分类主题词表编辑委员会北京图书馆出版社2023测绘学叙词表测绘学叙词表编辑委员会测绘出版社2023电力主题词表张金城中国电力出版社2023海军主题词表陈明山海潮出版社2023海军主题词表. 上卷, 主表(字顺表)陈明山海潮出版社2023海军主题词表. 下卷, 范畴表附表英汉对照表附录陈明山海潮出版社2023标准文献主题词表与分类法对照索引中国技术监督情报研究所中国标准出版社1999军用公文主题词表总参谋部办公厅、通讯部中国检察出版社1999黄河水利委员会公文主题词表黄河水利委员会办公室黄河水

12、利出版社1999中国铁路叙词表铁道部科学技术信息研究所北京科学技术出版社1998公文主题词表中共中央办公厅秘书局中国档案出版社1998大气科学主题词表中国气象科学研究院情报所气象出版社1998军队政治工作主题词表总政治部办公厅解放军出版社1998水利水电科技主题词表水利部信息研究所黄河水利出版社1998中国中医药学主题词表吴兰成中医古籍出版社1996管理科学主题词表魏铁进机械工业出版社1996兵器科技档案主题词表使用手册兵器科技档案主题词表使用手册编制委员会国防工业出版社1996社会科学检索词表社会科学检索词表编辑委员会社会科学文献出版社1996中国档案主题词表研究与使用精要张正强上海科学技术

13、文献出版社1995数学汉语主题词表王声培上海教育出版社1995航天科学技术叙词表罗瑛,王乃洪宇航出版社1995音像资料叙词表赵锦,戴维民中国计量出版社1995地理科学叙词表郭扬科学出版社1995环保保护档案主题词表国家环境保护局中国环境科学出版社1995兵器科技档案主题词表兵器科技档案主题词表编制委员会国防工业出版社1995邮电公文主题词表邮电部办公厅黑龙江人民出版社1995石油主题词表=Petroleum thesaurus.第一分册杨义忠石油工业出版社1994.5石油主题词表. 第二分册, 附表 = Petroleum thesaurus, Supplemental list杨义忠石油工业

14、出版社1994.5勘探与开发词表汉英索引杨义忠石油工业出版社1994军队档案常用主题词表中国人民解放军总参谋部办公厅同济大学出版社1994物理学汉语主题词表中国科学院文献情报中心中国科学技术出版社1994生物分类叙词表. 第三分册, 分类表拉/英汉索引农业部情报研究所中国农业出版社1994生物分类叙词表. 第二分册, 字顺表 PZ农业部情报研究所中国农业出版社1994民航主题词表范畴纲目民航主题词表课题组中国民航出版社1994生物分类叙词表. 第一分册, 字顺表 AO农业部情报研究所中国农业出版社1994农业科学叙词表. 第二分册, 字顺表 P-Z农业部情报研究所中国农业出版社1994农业科学

15、叙词表. 第一分册, 字顺表 AO农业部情报研究所中国农业出版社1994农业科学叙词表. 第三分册, 分类表英/拉-汉索引农业部情报研究所中国农业出版社1994航空航天医学主题词表 = Aerospace medicine thesaurus吴国兴中国科学技术出版社1993.5军用医学主题词表 = Military medical thesaurus张立平人民军医出版社1993年10教育主题词表曹青阳,赵燕群教育科学出版社1993.12世界汉语教学主题词表 = Chinese thesaurus of world Chinese teaching许维翰,武金香北京语言学院出版社1993.8邮电

16、通信技术主题词表邮电通信技术主题词表编委会人民邮电出版社1993.2军用后勤主题词表周克玉金盾出版社1992.5中国地震科学主题词表 = Seismology thesaurus of China李存悌地震出版社1992.4艺术科学叙词表中国艺术研究院文化艺术出版社1992.12水产科学叙词表 = Fishery science thesaurus中国水产科学研究院科技情报研究所中国农业科技出版社1991年10军用公文主题词表总参谋部办公厅,总参谋部通信部蓝天出版社1991.9计算机科学技术汉语叙词表 = =CHINESE THESAURUS OF COMPUTER SCIENCE AND T

17、ECHNOLOGY王能琴清华大学出版社1990.6军用主题词表. 第一卷, 主表(字顺表)军用主题词表编制委员会军事科学出版社1990.12军用主题词表. 第二卷, 范畴表、附表军用主题词表编制委员会军事科学出版社1990.12军用主题词表使用手册军用主题词表编制委员会军事科学出版社1990.12军用主题词表. 第三卷, 汉英-英汉对照索引军用主题词表编制委员会军事科学出版社1990.12环境科学叙词表环境科学叙词表编制组中国环境科学出版1989.12气象部门档案文献主题词表国家气象局办公室气象出版社1989纺织汉语叙词表 = =CHINESE THESAURUS OF TEXTILE, 范畴

18、索引表英汉对照索引表附表纺织工业部科学技术情报研究所人民交通出版社1989.9纺织汉语叙词表 = =CHINESE THESAURUS OF TEXTILE, 主表纺织工业部科学技术情报研究所人民交通出版社1989.9情报检索与主题词表丘峰书目文献出版社1988.3核科学技术叙词表 : 英汉对照索引中国核情报中心编者刊1988中国档案主题词表中国档案主题词表编委会档案出版社1988海洋科学主题词表国家海洋局海洋科技情报研究所海洋出版社1986国防科学技术叙词表, 英汉索引国防科学技术叙词表编写组编者刊1985国防科学技术叙词表, 字顺表型号表国防科学技术叙词表编写组编者刊1985机械工程主题词

19、表第一机械工业部技术情报所第一机械工业部技术情报所1979概念词表铁道部科学技术情报研究所铁道部科学技术情报研究所4. 技术路线技术路线可分为以下几个环节:1) 调研目前工信部下属的所有产业部门,参考国民经济行业分类标准建立工信领域的行业分类体系,给出大类、中类、小类名称。2) 调研工信部下属所有产业部门对知识服务的需求,需求调研采用官网数据采集、问卷调查、行业专家征询等方式,形成需求调研报告,为在行业分类体系下建立四级、五级的分类提供依据。3) 记录并抽取中国分类主题词表下所有覆盖工信行业的学科领域,作为主题词表的基础。对现有的行业主题词表进行调研,选取工信行业相关的主题词表或叙词表。对上述

20、所有主题词表按照词间关系进行整合。4) 对工信部下属行业的官网、维基百科、相关行业知识检索平台进行数据采集。运用共词分析方法对主题词进行聚类,从而发现新兴的主题词或热点主题词。5) 在给定关键词集的基础上可采用贝叶斯玫瑰树算法(也可尝试其他算法实现)构建领域层次结构,拟定词间关系,聘请领域专家辅助,将这些词补充到已经整合的主题词表中。6) 建立分类体系和主题词表的一体化映射关系。可选取重点行业进行实验,对映射后的分类体系和主题词表部分可运用RDF进行描述。开发主题词编辑平台,可在线编辑并增长主题词,为后续的研究提供便利;7) 对本体的构建方法进行研究,重点研究前文在关键问题中所阐述的六种方法,并给出工信领域本体建设的具体方案。8) 基于上述研究成果,在已有的工信领域分类体系和主题词表的基础上以电信行业下的子类,如移动电信(可选择其他行业)为例进行本体的构建实验,通过本体一致性检查和形式化编码,将所建本体以 OWL 语言进行形式化编码并保存,在知识服务平台中进行测试。

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服