1、第 卷 第 期 年 月 黑 龙 江 科 技 大 学 学 报 .深度学习模型的矿业工程学科知识图谱构建王海玲 康 华 刘兴丽 范俊杰(.黑龙江科技大学 计算机与信息工程学院 哈尔滨.黑龙江科技大学 矿业工程学院 哈尔滨)摘 要:为解决矿业工程学科的知识组织中数据的异构性与稀疏性问题构建一种可持续动态更新的矿业工程学科知识图谱 通过设计一种矿业工程学科的知识图谱本体模式采用基于深度学习模型的知识抽取模型从多源异构数据源中获取领域知识给出多特征的知识融合算法实现了矿业工程学科知识图谱的知识扩展 结果表明矿业工程学科知识图谱的构建方法的 值达到.融合方法的 值达到.可有效支持知识图谱动态持续构建以及学
2、科热点等关联知识的可视化分析关键词:矿业工程 知识图谱 深度学习模型:./.中图分类号:.文章编号:()文献标志码:(.):.:收稿日期:基金项目:科技创新“新一代人工智能”重大项目()黑龙江省省属高等学校基本科研业务费项目()第一作者简介:王海玲()女河北省邯郸人讲师博士研究方向:知识图谱、人工智能:.引 言随着人工智能技术的发展数据挖掘、知识问答、聊天机器人、知识推荐等得到飞速发展 其中知识图谱以其结构化的知识网络表示特点受到广泛关注 知识图谱是一种由于实体与关系关联的语义网络可形成多源异构的知识互联有效解决了数据离散、知识孤岛问题知识图谱可将矿业工程相关学科、专业知识形成统一、互联的知识
3、形式有利于领域知识供给在能有效支撑矿业知识检索、矿业智能决策与推荐在商业与教育领域具有极高价值近年来与矿业工程相关的知识图谱研究取了一些进展 如煤矿安全监测相关元素的本体构建、煤矿安全事件知识图谱、煤矿生产环节的科学知识图谱、煤矿设备知识图谱、煤矿安全建设 知 识 图 谱 矿 业 相 关 研 究 方 向 热 点 分析 然而在矿业工程领域并没有学科层面的知识图谱 目前世界各国并未在学科的严格界定形成统一标准但对学科度量达成了较为统一的共识即学科包含人才培养、科学研究、梯队建设、社会服务等维度其中课程与科学研究是国内学科评价的基础与核心元素 文中以此为研究对象通过知识图谱将学科、课程、科学研究等相
4、关的分散的知识予以整合并且持续更新帮助学生、教师及科研人员快速掌握专业知识体系获取研究动态以有效支持矿业工程学科的教育辅助、知识检索、知识推荐及知识问答为矿业工程学科建设提供基础知识支撑鉴于此笔者构建一种矿业工程学科知识图谱()设计矿业工程学科的知识图谱本体模式指导矿业工程学科的知识抽取采用基于 的深度学习模型支持多源异构的知识抽取有效提高知识抽取的精确度、准确率以及 值给出多特征的知识融合方法实现大规模知识的自动更新 知识图谱本体设计.知识图谱本体模式本体模式是一种抽象化及语义化且概念化的规范包含实体类型、属性及关系是知识图谱的核心为保证本体模式质量文中在领域专家的指导下设计与构建 本体其中
5、领域专家由来自矿业工程学科的专业教师组成参考资料为矿业工程学科指南、专业大纲、课程大纲、教案、教材以及行业标准 的构建目标是为矿业工程学科建设、高等教育与科学研究提供全面、动态的关联知识因此 本体划分为课程知识、专业知识与学科知识三个层次如图 所示 具体包括课程知识、专业知识和学科知识()课程知识:关注矿业工程学科的专业技术知识主要包括采矿工程与矿物加工工程专业的课程、章节、知识点等实体类型及其关系()专业知识:关注专业技术之间的关联性涵盖采矿工程、矿物加工工程、安全技术及工程、交通运输工程、石油工程、油气储运工程、矿物资源工程、海洋油气工程、地质工程、地质勘探工程及冶金工程等二级学科实体及其
6、关系()学科知识:关注专业技术研究动态包括矿业工程领域的研究课题、领域相关文献、研究机构、研究人员与研究热点等内容以助力科学研究图 本体模式.实体及其属性关系类型决定知识图谱质量的关键因素 本体关系旨在将课程知识、专业知识与学科知识三种实体类型进行知识互联形成立体、全面、完整的领域知识体系既关注具体实体类型内部实体之间的关系也注重不同实体类型之间的关系 本体中部分实体与关系如表 所示属性用于描述实体类的特征、特性等信息具有丰富实体语义表达的作用 通过深入研究科研者、教师、学生以及应用者的使用需求矿业工程学科知识本体中部分实体类的属性如表 所示 为适应黑 龙 江 科 技 大 学 学 报 第 卷未
7、来知识图谱应用需求矿业知识图谱本体都设计了灵活的扩展性以支持后续实体属性动态更新表 本体的部分实体与关系 实体关系实体 学科子级专业 专业开设课程 专业 关联专业 技术 关联技术 研究成果来自研究机构 研究热点关联技术 研究热点关联研究成果 表 本体的部分实体属性 实体类型属性研究成果发表年份来源机构关键技术来源期刊研究热点名称 相关技术起始时间研究机构名称 简介 优势技术研究团队名称 研究方向团队成员学者 姓名 学历 研究方向专业 名称 简介 相关技术应用领域技术 名称 简介 理论 应用领域课程 名称 简介 要求 难度 知识图谱构建知识图谱构建是将多源异构数据组织成知识过程 为保证知识图谱的
8、鲁棒性 构建主要分为专家级的轻量级知识图谱与基于深度学习模型知识抽取的动态知识更新两个阶段前者采用人工方式由专业教师根据本体构建部分学科知识图谱其数据规模较少知识不完备之后利用后者进行知识扩展如图 所示图 构建.数据准备数据准备阶段主要从两种角度收集数据其一是专业资源主要包含矿业工程学科及其 个二级学科的课程大纲、教材、教案等专业化的 套电子资源其次是通过数据抓取技术从、百度百科等合法平台获得矿业工程学科领域的结构化、半结构化以及结构化数据 通过人工筛选基于规则的数据清洗等处理后形成矿业工程学科的知识抽取语料集 利用小样本数据增强技术生成部分语料集 统计数据如表 所示表 语料集统计 资源容量/
9、句子/个增强/个教材类资源.线上资源 .轻量级矿业工程学科知识图谱构建轻量级 构建是在领域专家的指导下采用众包方式由专业教师从矿业工程学科指南、教学大纲、教材、教学计划等专业材料中提取核心主题词专业技术、课程、知识点等实体、属性及其关系组建领域词典经过专家审核后采用批量映射方法导入 图知识库从而构建兼具准确度与鲁棒性的轻量级的矿业工程知识图谱 本节共创建 个二级学科、个专业技术、门专业课程 个重要研究机构等相关实体、属性及其关系的轻量级其数据统计如表 所示表 轻量级 类别类/个数量/个实体 关系.基于深度学习模型的知识抽取在线资源具有丰富的专业数据因其规模性与离散性使得知识抽取成本较大 随着、
10、和 等神经网络结构以及、和 等预训练语言模型的提出基于深度学习模型在知识抽取方面取得显著成效此类模型的知识抽取技术由嵌入层、编码层与解码层组成难点在于合理的算法选择嵌入层是将文本数据转化为向量化表示第 期王海玲等:深度学习模型的矿业工程学科知识图谱构建年提出的 在 项自然语言处理任务中达到了 效果然而 静态掩码机制与字粒度掩码使其产生()问题 为突破上述问题文中采用 语言模型其中采用了动态掩码机制可使训练的语言知识适应性更强 该模型采用的 结构可将神经网络学习到知识加注于 表示另外()为全词粒度掩码可提取语句的获得字符级语义特征提高中文语言模型的语义表达编码层采用双向长短期记忆网络()该模型的
11、每个神经元都包含遗忘门、输入门、输出门最终输出结果是由双向 隐含层向量拼接而成 模型在遗忘门丢弃无效信息的公式为()()在输入门保留重要信息特征的公式为()()输出结果的公式为()()()()()()式中:遗忘信息 保留信息 输入结果 输入信息 前一时刻的隐藏状态向量 控制状态 增强了神经元的记忆力关注输入上下文的语义特征 然而 无法学习到标签间的关联性 为了解决上述问题在解码层采用条件随机场()该模型可根据输入序列 ()输出其标签序列 ()的条件概率分布其公式为()()()()()()()()式中:算 法 预 测 得 到 的 最 优 标 签预列()输入序列对应输出序列得分 标签识别标签的概率
12、 标签转移为标签的得分()对于输入预列的输出概率()损失函数.知识融合知识融合将新获取的知识映射到矿业工程学科知识图谱中的过程是知识图谱扩展与更新的关键文中关注知识图谱的可持续更新 在知识融合中待融合实体与目标实体往往文字表达不同语义相同或相似并且上下文语义一致 因此提出基于实体特征与语义特征协同的知识融合方法()对于每一个实体指称 采用最长公共子序列()算法与获得候选实体集()计算公式为()()()()式中:长度为 的序列 长度为 的序列对于实体指称与其候选实体集合 通过归一化处理衡量两者的匹配度计算公式为()式为:实体指称与候选实体 处理所后的长度的 长度 当前候选实体长度为增强语义特征利
13、用大规模领域语料训练 词向量 模型引入子单词信息增强了词义表征与其他深度学习模型相比在保证相同准确率的前提下具有高计算率 文中采用 的 向量化度进行知识表示然后计算其余弦相似度为()式中:实体指称实体 的向量表示 候选实体 的向量表示此外借助轻量级矿业工程知识图谱的实体信息作为筛选条件在实际应用中实体的重要度通常可由该实体与其他实体的关联性体现文中采用实体的出度与入度和计算其重要度公式为黑 龙 江 科 技 大 学 学 报 第 卷()式中:当前候选实体的热度值 候选实体知识融合的目标实体将式()、()和()进行平均计算公式为()()研究结果分析.实验环境与评估指标实验环境配置为 的 操作系统 为
14、 程序 是.预训练架构为.实验评估指标采用通用的精确率、召回率 与 值计算公式为 式中:知识抽取模型能正确抽取数量 将错误知识作为正确知识抽取的数量 将正确的知识判断为错误的知识的数量三个指标的值越高表示知识抽取模型的性能越好.知识抽取知识抽取实验是将处理好的数据集划分为训练集、测试集与验证集其比例为 实验在训练集上进行多轮训练调整参数性能稳定后在测试集进行测试最后在验证集上进行文中方法的性能验证 文中方法的参数设置是 与 参数为 学习率为 学习率为 单元数为 优化器为 为.为了验证文中深度学习模型的有效性对决定模型性能的嵌入层与编码层进行方法替换验证嵌入层选择 替换 编码层选择 以及与 类似
15、的双向循环神经网络 替换 由于矿业工程学科知识抽取过程中涉及多类实体且数据集中存在类别不均衡情况文中多个实体类型的宏平均值进行比较说明宏平均值是先对不同实体类型统计其评估指标再计算所有实体类型评估指标的算术平均值 文中深度学习模型与其他模型在知识抽取中的实验结果对比如表 所示表 知识抽取实验结果 模型/.由表 可知在知识抽取中采用 和 语言模型的评估指标均低于 模型经分析其原因是 为双层神经网络其词向量忽略词与词间关系 采用静态随机掩码策略只能关注字级别语义特征而 的全词动态掩码很好地提取词 的级语义特征因此 模型取的 值比 提高了.比 提高了 在编辑层测试中模型、均比 性能好说明句子上下文信
16、息对知识抽取任务很重要而双向网络结构能关注到句上下文特征 模型优于 模型原因在于 的参数与门控机制简单无法提取更多语义特征 实验结果表明文中基于深度学习模型(表 中加粗行的模型)的知识抽取方法性能最优.知识融合首先对 的 的取值进行实验实验数据如表 所示表 值对知识融合影响 /.实验结果表明组成词子序列的词元并非越多第 期王海玲等:深度学习模型的矿业工程学科知识图谱构建越好词元越多会引入噪声影响语义表达的准确性实验证明文中 取 元语法效果较好知识融合实验中文中的多特征知识融合方法()与 算法以及 向量的余弦相似度方法()进行实验对比实验结果如表 所示表 知识融合实验对比 方法/.由表 可知文中
17、提出的实体特征与语义特征协同的知识融合方法优于 算法以及 词嵌入的余弦相似度方法这是因为 并没考虑语义相似或关联特性 词嵌入也只关注了字级别特征特征信息不足而文中方法即考虑了词级语义特征也关注了实体特征 矿业工程学科知识图谱可视化分析在矿业工程学科知识图谱本体模式的指导下基于深度学习模型获取了海量矿业工程学科领域知识通过多特征知识融合算法将新知识有效合并到轻量级矿业工程学科知识图谱最终形成矿业工程学科知识图谱的实体规模约 个关系规模约 条文中创建的矿业工程学科知识图谱局部效果如图 所示图 矿业工程学科部分知识图谱.文中研究成果还成功用于矿业工程学科的热点分析矿业工程学科知识图谱与中国知网平台进
18、行数据整合实现的学科热点分析与评估功能如图 所示 该应用可进行矿业工程学科知识图谱的研究机构、研究人员检索同时还可实现矿业工程学科专业技术文献统计与研究热点可视化分析图 矿业工程学科热点评价.结束语设计了矿业工程学科的知识图谱的本体模式在此指导下构建了矿业工程学科的知识图谱涵盖课程知识、专业技术知识与学科知识三个知识层次共包含矿业工程学科的所有二级学科、种技术以及采矿工程与矿物加工工程的专业课程知识实体规模约 个关系规模约 条 为了保证知识图谱构建质量与效率采用人工构建与深度模型自动化知识抽取与扩展策略相结合其中基于深度学习模型的知识抽取方法与多特征协同的知识融合方法可有效支持大规模非结构化数
19、据的知识抽取与扩展未来将研究多模态知识抽取以丰富在矿业工程学科知识图谱并继续探索矿业工程学科知识图谱的知识问答、学生学习效果评估、协作学习与知识推荐等教育应用参考文献:张佳宇.基于本体的煤矿安全领域知识图谱研究.太原:太原科技大学.魏卉子.煤矿安全融合知识图谱构建研究.徐州:中国矿业大学.王学奎.基于煤矿科学知识图谱的智能问答技术研究.徐州:中国矿业大学.鹿晓龙.煤矿安全知识图谱构建技术研究.徐州:中国矿业大学.陈孝慈.煤矿安全隐患管理知识发现研究.徐州:中国矿业大学.赵丽丽.基于知识图谱的煤矿建设安全管理知识问答研究.徐州:中国矿业大学.侯 锬 刘丽君 赵 岩等.智能矿井和数字矿山研究热点与
20、前沿知识图谱分析.能源与环保 ():.(下转第 页)黑 龙 江 科 技 大 学 学 报 第 卷:.唐 斯 陈新楚 郑 松.基于注意力与多尺度卷积神经网络的电机轴承故障诊断.电气技术 ():.赖华友.矿山设备轴承故障诊断与异常分析.采矿技术():.王 琦 邓林峰 赵荣珍.基于改进一维卷积神经网络的滚动轴承故障识别.振动与冲击 ():.彭 成 蒋金元 李凤娟.基于 的滚动轴承故障诊断方法.现代电子技术 ():.郑 直 张华钦 潘 月.基于改进鲸鱼算法优化 的滚动轴承故障诊断.振动与冲击 ():.黄晓玲 周 磊 张德平.基于特征融合和混类增强的深度学习滚动轴承故障诊断.计算机系统应用 ():.冷 佳
21、 刘 镇 张笑非.多特征融合 网络的旋转机械故障诊断研究.软件导刊 ():.李俊卿 陈雅婷 李斯璇.机器算法在电气设备故障预警及诊断中的应用.科学技术与工程 ():.():.刘 飞 陈仁文 邢凯玲 等.基于迁移学习与深度残差网络的滚动轴承快速故障诊断算法.振动与冲击():.():.(编辑 李德根)(上接第 页)江婷婷 盛 武.基于 的煤矿安全风险识别知识图谱分析.华北科技学院学报 ():.高 璐 康向涛 王子一 等.基于 的煤矿瓦斯知识图谱分析.矿业工程研究 ():.谭章禄 单 斐 陈孝慈.国内煤矿安全研究领域的知识图谱分析.西安科技大学学报 ():.蒋仲安 曾发镔.基于 文献计量学的矿山粉尘研究可视化知识图谱分析.矿业安全与环保 ():.刘兴丽 范俊杰 马海群.面向小样本命名实体识别的数据增强算法改进策略研究.数据分析与知识发现 ():.:.:.:.:.:.:.(编辑 李德根)黑 龙 江 科 技 大 学 学 报 第 卷