收藏 分销(赏)

基于深度学习的工单智能检测探讨.pdf

上传人:自信****多点 文档编号:2323521 上传时间:2024-05-28 格式:PDF 页数:5 大小:1.41MB
下载 相关 举报
基于深度学习的工单智能检测探讨.pdf_第1页
第1页 / 共5页
基于深度学习的工单智能检测探讨.pdf_第2页
第2页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、:/.【收稿日期】【作者简介】康珺()女高级工程师主要从事无线网络规划与分析工作:张勇()男高级工程师主要从事移动通信无线网络规划与优化工作及研究:米凯()男高级工程师主要从事移动通信无线优化及网优支撑平台开发等工 作:技术交流基于深度学习的工单智能检测探讨康 珺 张 勇 米 凯 李秀山 秦良斌中国移动通信集团内蒙古有限公司 内蒙古 呼和浩特【摘要】随着通信业不断发展网络规模逐渐增加网络集中优化派单已成为网络维护的常态随之而来的工单审核日益繁重 以运营商网络优化集中化系统中派发工单为例开展工单质量检查通过训练无线分词、增加无线专有名词、采用 模式识别新增词的方式形成无线专业语料库并根据此库进行

2、原因分析、处理过程描述两个字段的分词在判断过程中除检测关键词外引入 算法增加相近语义检测增大判断的准确性 经验证该方法准确率较好能有效提升工作效率具有较高推广性【关键词】工单检测 深度学习 词向量【中图分类号】【文献标识码】【文章编号】():/()引言近年来随着通信行业的发展行业内部竞争的加剧通信运营商提高精细管理水平降低运维成本、提升运作效率的要求越来越高 同时 网络的逐步入网技术交流 :/.网络规模逐年扩大日均派发的工单量也翻倍上升仅依赖人工抽查工单质量不仅效率偏低也存在工单质检错检、漏检情况的发生很难及时发现派单过程中出现的问题 网络优化部门只能抽取部分工单进行质量检查 从检查的情况来看

3、合格率较高网络优化部门对回复工单的检查规则相对较少同时质检人员在判断工单中的信息是否符合逻辑时在庞大的数据中单单靠观察或者心算难免会出现误差导致误判或者漏检情况发生从工单质检的现状可以看出目前人工工单质检已经满足不了行业对庞大工单数据的检测 因此提高改进技术以满足对信息处理日益增长的要求本文提供一种基于深度学习的集中优化工单质检方法在大规模复杂网络运维中通过自动化系统代替原人工工单质检提高了质检效率降低了漏检率和错检率 并且利用深度学习方法及 算法实现词向量和语义相似度对比算法从而更好的判断工单是否合格运营商的无线网络优化工作已经实现全省集中优化无线问题从发现到提出解决方案到方案实施再到效果评

4、估均实现了全线上、全集中并建成了一套完整的线上派单、回单、质检的流程 线上派发的集中优化工单包括工单类别、原因分类、原因分析、处理过程描述几项重要的回复项并通过抽查方式对其中回复工单进行质量检查 理论基础 分词算法根据现有已训练好的前缀词典实现高效的词图扫描生成句子中汉字所有可能成词情况并构成有向无环图()的特点是任意一条边有方向且不存在环路它是一个有向图具有拓扑顺序顶点的序列使得每条边在序列中都是由前到后定向的 有向无环图如图 所示图 有向无环图生成句子中汉字所有可能成词情况构成的有向无环图 根据生成的前缀字典来构造一个一个句子的 是以:的字典结构存储其中 是词在句子中的位置存放的是在句子中

5、以 开始且词句子:在前缀词典中的以 开始 结尾的词末位置 的列表即 存放的是句子中以位置 开始的、可能的、词语的结束位置这样通过查字典得到词 开始位置 结束位置列表例如:句子“抗日战争”生成:这种简单的 表示 位置开始 在 位置都是词 就是说 即“抗”“抗日”“抗日战争”这 个词在内置字典中是词如果将本专业的专业名词增加至内置字典中那么会避免一些专有名词被拆分的情况 如“开鲁玉龙公馆东南 ”是一个小区名称即专有名词 如果不增加至网络优化集中系统智能工单字典中则会被拆分为开鲁/玉龙/公馆/东南/这 个细分词这对后需语义识别带来很大的干扰采用了动态规划查找最大概率路径 找出基于词频的最大切分组合

6、基于 利用动态规划查找最大概率路径的基本思路就是对句子从右往左反向计算最大概率依次类推 最后得到最大概率路径 得到最大概率的切分组合 对于未登记的词采用了基于汉字成词能力的 模型使用 算法 在实际应用中主要用来解决概率评估、解码和学习等问题 即词向量就是一个词用一个向量来表示 年 提出 工具主要包含跳字模型()和连续词袋模型()个模型 词向量可以较好地表达不同词之间的相似和类比关系是一个 工具它可以将所有的词向量化这样词与词之间就可以定量的去度量它们之间的关系挖掘词之间的联系词向量的基本思想是通过大量语料库训练将某种语言中的每个词语映射成一个固定长度的向量通常该词向量的长度远小于该语言词典的大

7、小通常在几十到几百维 所有这些向量构成了词向量空间而每一个向量就可以视为该空间中的一个点在这个空间上引入距离的度量就可以根据词向量的距离来判断对应词语之间在句法、语义上的相似性 是归属深度学习范畴的一种自然语言学习算法 该算法能够在较短的时间内从大规模语料库中学习到高质量的词向量 通过这种方法得年 月 总第 期:/.到每个词的低纬度向量表达从而可以方便的计算词与词之间的语义相似度 它包含跳字模型()和 连 续 词 袋 模 型()种训练模型 跳字模型和连续词袋模型均包含输入层、投影层和输出层 其中 模型通过上下文来预测当前词 跳字模型则通过当前词来预测其上下文 本文使用的是 模型通过上下文词向量

8、预测当前词语义相似度可以通过余弦相似度计算 如 ()()()()其中 和 分别表示属性集合中属性值的向量和待分类工单中提取字段的向量 和 是两个 维的向量 和 分别表示 和 第 维的权值 求出来的余弦值越接近 就表明夹角越接近 度也就是两个向量越相似夹角等于 即两个向量相等 语义相似度还可以通过欧式距离来计算 如 ()()()()其中 和 分别表示属性集合中属性值的向量和待分类工单中提取字段的向量 和 是两个 维的向量和 分别表示 和 第 维的权值 表示第 维的方差 距离越大相似度越小距离越小相似度越大根据欧氏距离、余弦相似度各自的计算方式和衡量特征分别适用于不同的数据分析模型欧氏距离能够体现

9、个体数值特征的绝对差异所以更多的用于需要从维度的数值大、中、小体现差异的分析本文使用的是欧式距离计算语义相似度 基于深度学习的智能工单质检方法针对以上提出的问题研究一种智能识别工单内容使得工单回复前后逻辑一致迫在眉睫 主要包括两方面内容:一是训练无线专业语料库二是完成工单内容中原因与措施的逻辑判断 无线专业语料库训练收集无线专业问题处理案例 篇剔除图片、表格、时间信息外将内蒙古自治区小区名称表、全区 表、全区 表纳入自动分词字典表将常用停用词表导入字典表基于前缀词典实现词图扫描生成句子中汉字所有可能成词情况所构成的有向无环图()采用动态规划查找最大概率路径找出基于词频的最大切分组合 对于未出现

10、的新词采用了基于汉字成词能力的隐马尔可夫模型()采用 算法经过分词后可得到符合内蒙古自治区无线专业词语语料库 无线专业词训练图如图 所示图 无线专业词训练图 工单质检流程目前网络优化集中化系统集中优化工单根据网络劣化情况会实时派发数据业务性能劣化、高干扰、小区性能劣化、寻呼拥塞、投诉小区劣化共五类工单交由维护人员处理工单质检主要针对五类工单主要审核工单反馈产生问题的原因、问题处理过程由于五类工单反馈的问题原因分类字段为标准字段根据所选内容层级逐一选择因此内容较规范可作为后续的特征词对要审核的原因分析字段存在前后逻辑一致关联 如问题原因分类为无线网络问题 网络干扰 外部干扰 干扰器干扰 协调关闭

11、干扰器可以明确在原因分析字段必须描述的告警、干扰、参数问题中会存在网络干扰问题 同时也可以规避原因分类选择不恰当问题 工单质检流程图如图 所示工单质检过程主要为以下步骤:)读入工单中“工单分类”“原因分类”“处理过程描述”个字段)由于原因分类为层级原因因此拆解原因分类字段形成每张工单的层级原因分类表并将标注一级原因、二级原因、三级原因、四级原因、末端原因)根据“工单分类”字段对工单分类选取数据业务性能劣化、高干扰、小区性能劣化、寻呼拥塞、投诉小区劣化共五类工单)将无线专业语料库作为分词参考库并将全自治区的小区名称、纳入专有字典表将常用停用词表导入字典表对“原因分析”字段分词)在判断“原因分析”

12、字段时由于在工单回复规范中已明确要求在原因分析中描述站点干扰、参数、告警等情况 因此查找在分词后是否出现以上 图 工单质检流程图技术交流 :/.个词 如出现上述 个词则认为原因分析有描述未出现上述 个词则进行深度学习 过程)将干扰、参数、告警 个词作为特征词生成特征词向量采用 算法利用特征词向量比较与标准的语义相似度此处语义相似度用欧氏距离来计算 如果语义相似度在设定阈值范围内则判定包含该特征词“原因分析”工单回复合格如果超出阈值设置范围则判定工单回复不合格)在判断“处理过程描述”字段时将原因分类的二级原因作为特征词并生成特征词向量按照步骤五、步骤六判断该字段回复的合理性并对提到的操作进行验证

13、 如修改工程参数则查找集中参数系统中对应的当前值是否为修改后值如调整天线则查找集中参数系统中对应的天线下倾角、方位角是否为修改后值如有一项不符合标准值则该字段不合格)如果“原因分析”字段、处理过程描述”字段均为合格则判断该工单合格年 月 总第 期:/.根据以上步骤筛选 张质检后的工单经过人工严格审核其中不合格有 张合格有 张不合格工单识别准确为 合格工单识别准确率为 工单识别情况如表 所示表 工单识别情况小区劣化工单工单准确数/张识别准确工单数/张准确率/不合格工单 合格工单 从表 可以看出工单质检准确率整体较准确不合格工单识别的准确率略高于合格工单准确率也从侧面可以表明工单质检的流程相当于是

14、初步质检可以缩小工单二次检查范围 结语本文以运营商网络优化集中化系统派发的工单为目标开展质量检查并根据工单填写的工单类别、原因分类等固定格式内容重点检查原因分析、处理方案描述两个人工填写字段 通过训练无线专业分词、增加无线专有名词、采用 模式识别新增词的方式形成无线专业语料库并根据此库进行原因分析、处理过程描述两个字段的分词经过检查分词后是否包含特征词判断该项填写内容是否合格 在判断过程中引入 算法将特征词形成词向量计算语义相似度从而增大判断的准确性 经过验证该方法不合格工单识别准确率为 合格工单识别准确率为 工单质检准确率较高可有效提升工单质检效率参考文献 鲍曙光.基于数据词典的中文分词算法

15、优化实现.现代信息科技():.罗飞雄.基于 的自动文摘算法的研究与应用.西安:西安电子科技大学.林游龙.基于隐马尔可夫模型的分词算法的设计与实现.网络安全技术与应用():.石凤贵.基于自然语言处理的 词向量应用.黑河学院学报():.陈芬.基于 与 的关键词抽取研究.武汉:华中师范大学.吴茜李尧辉朱青仑.基于 的通信网络资源数据处理方法及应用.移动通信():.业界动态广州将打造成为全球数据要素市场核心枢纽近日广州市政务服务数据管理局官网发布关于广州市新型智慧城市建设规划(征求意见稿)(以下简称征求意见稿)意见的公告向社会各界公开征求意见截至 月 日 征求意见稿提出以高标准建设国际一流智慧城市为总

16、体目标将广州打造成为全球数据要素市场核心枢纽、全国超大城市韧性智治标杆、湾区全龄友好温馨人民城市、全球先进科技创新策源高地征求意见稿指出广州是我国智慧城市首批试点城市 近年来广州以建设国际一流智慧城市为目标高标准推进数字政府、数字经济和数字社会三位一体的智慧城市建设在基础设施、支撑平台、数据要素、城市治理、民生服务、数字经济等领域不断取得新进展、实现新突破 不过广州市智慧城市整体统筹建设力度不够、品牌显现度不足在数字基础设施、数据要素、超大城市治理、民生服务、建设运营模式等方面距离国际一流智慧城市还有一定提升空间征求意见稿提出六大智慧城市建设重点:一是完善新型基础设施构建更扎实的建设基础二是升

17、级城市运管中枢打造更智能的城市大脑三是释放数据要素价值培育更多元的数据生态四是创新超大城市治理实现更坚韧的穗城智治五是推进数字全龄友好完善更温暖的花城服务六是引领发展数字经济做优更开放的羊城产业征求意见稿明确到 年广州国际一流智慧城市“三年见成效”城市生命体雏形初显 基本建成有特色、有亮点的新型智慧城市到 年广州国际一流智慧城市“五年大跃升”城市生命体正式运转 高效建成多层次、成体系的新型智慧城市各大领域实现全面升级展望 年全面建成具有经典魅力和时代活力的国际一流智慧城市城市生命体机能健全人与自然和谐共生格局和智慧低碳生产生活方式基本形成经济社会发展实现全面数字化转型成为中国式现代化城市优秀典范

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服