基于结巴分词的领域自适应分词方法研究_邢玲.pdf

资源描述

1、基金项目:中国科学院随机复杂结构与数据科学重点实验室(2008DP173182)收稿日期:2021-04-07 修回日期:2021-07-09 第 40 卷第 4 期计算机仿真2023 年 4 月文章编号:1006-9348(2023)04-0310-07基于结巴分词的领域自适应分词方法研究邢玲1,2,程兵1(1.中国科学院数学与系统科学研究院,北京 100190;2.中国科学院大学,北京 10049)摘要:利用 Jieba 分词(结巴分词)对中文文本进行分词时,对于领域词组分词效果不是很理想,需要通过加载自定义词典解决这个问题。提出一种领域自适应分词方法,将结巴分词后

2、相邻词语组合为词组,利用标准化点互信息(NPMI)及词频统计两种方法分别计算词组凝聚度,利用左右信息熵计算词组自由度,通过设定凝聚度与自由度阈值识别领域词组,利用文中提出的词性约束规则进一步筛选词组,将得到的词组作为自定义词典加入到结巴分词中,再次对文本进行分词。通过在自己构建的金融和法律领域语料库进行实验,证明了所提算法可以有效发现领域词组,利用该算法进行领域分词时,准确率和召回率高于只利用结巴分词的准确率和召回率。最后提出了一种基于区分不同领域的领域自适应分词算法评价方法。实验结果表明,上述算法能够有效区分不同领域,即可以有效实现领域分词。关键词:结巴分词;领域自适应;标准化点互信息;词频

3、统计;左右信息熵;词性约束中图分类号:TP391 文献标识码:BResearch on Domain Adaptive Word Segmentation MethodBased on Jieba Word SegmentationXING Ling1,2,CHENG Bing1(1.Academy of Mathematics and Systems Science,Chinese Academy of Sciences,Beijing 100190,China;2.University of Chinese Academy of Sciences,Beijing 100049,China)

4、ABSTRACT:When using Jieba word segmentation to segment Chinese text,the effect of segmentation of domainwords is not very satisfactory,and it is often necessary to load a custom dictionary to solve this problem.This paperproposes a domain adaptive word segmentation method,which combines the adjacent

5、 words after Jieba word segmen-tation into phrases,calculates the cohesion degree of phrases by using standardized point mutual information(NPMI)and word frequency statistics,calculates the degree of freedom of phrases by using left and right information entropy,identifies the domain phrases by sett

6、ing the cohesion degree and degree of freedom threshold,and further filters thephrases by using the part of speech constraint rules proposed in the paper,add the obtained phrases as a custom dic-tionary to the Jieba word segmentation,and segment the text again.Through experiments on the financial an

7、d legalcorpus built by myself,it is proved that the proposed algorithm can effectively discover domain phrases.When usingthis algorithm for domain word segmentation,the accuracy rate and recall rate are higher than that of only using Jiebaword segmentation.Finally,this paper proposes a domain adapti

8、ve word segmentation algorithm evaluation method-based on distinguish different domains.The experimental results show that the algorithm can effectively distinguishdifferent domains,that is,it can effectively realize domain word segmentation.KEYWORDS:Jieba word segmentation;Domain adaptation;Normali

9、zation point mutual information;Word frequencystatistics;Left and right information entropy;Part of speech constraints0131 引言分词作为文本数据处理的前期工作,对后续任务结果的好坏起着至关重要的作用。中文文本相比英文文本要复杂,英文文本中单词和单词之间有空格作为分隔符,而中文文本中最小可分割单位为句子,句子是由字序列组成,但是单个字不代表一个词语,因此将字序列切分为词语即分词,是一个值得研究的问题。中文分词算法主要分为三种,分别是基于词典的分词算法、基于统计的分词算法和基于

10、语义理解的分词算法。基于词典的分词算法,在分词前给定词典,通过将待分词文本与词典进行匹配,根据规定的匹配算法得到词序列。按照扫描文本的顺序,常用的匹配算法有正向最大匹配算法,逆向最大匹配算法,双向最大匹配算法。另外,词典的结构设计影响着匹配效率,常见的词典结构设计基于整词二分1、基于 Trie 索引树1、基于逐字二分1、基于双字哈希机制2以及它们的改进形式3,4。由于直接和词典中词进行匹配,基于词典的分词算法准确率较高。然而词典无法穷尽所有词语,比如新词“新冠病毒”不在词典中,这意味着词典是不完备的。将不在词典中的词称为未登录词,包括人名、地名、机构名称、缩略词、领域词语、新词。未登录词较多的

11、情况下,基于词典分词算法的准确率会随之下降。基于统计的分词算法,分为有监督分词方法和无监督分词方法。有监督分词方法主要是基于字标注的机器学习算法,该方法将对字序列进行分词转化为对字序列进行位置标注问题。汉字的边界位置标注方法包括 2 位标记、4 位标记等5。通常利用 4 位标记进行研究,B 表示开始位置、M 表示中间位置、E 表示结束位置及 S 表示单字构词5。利用人工标注语料集学习模型参数,将学习好的模型对字序列文本进行预测,得到字位置标注。常见的用于分词的机器学习模型有隐马尔科夫模型(HMM)6、最大熵模型(ME)7、条件随机场模型(CRF)8。该方法可以较好的解决未登录词问题,但是需要大

12、规模人工标注语料作为训练数据。无监督分词方法利用字串在未标注语料中的统计信息构建良度9,经典的良度标准有子串频率10、描述长度增益10、邻接多样性10和分支信息熵10。该方法不需要对语料库进行人工标注,但是仅仅依赖于无监督分词方法进行分词,得到的准确率通常较低。基于语义理解的分词方法,结合待切分文本的语义信息,模仿人的阅读理解方式进行分词。深度学习算法考虑了上下文信息,可以更好的理解语义,因此 CNN11、LSTM12等被引入到分词任务中。词向量模型将词表示为向量,将词语数学化,可以更好表示词语语义,因此词向量模型如Word2Vec13、Glove14以及近几

13、年提出的动态词向量训练模型如 Elmo15、Bert16等被应用到分词任务中。但是这些算法比较复杂,对计算机要求较高。现在基于语义理解的分词算法还不是很成熟,有待发展。以上三种分词方法并不是割裂的,将它们进行整合,可以提高分词准确率。结巴分词是将词典分词和统计分词方法结合起来的分词工具。结巴分词基于一个具有将近 35 万个词的词典,为了实现高效查找词语,构建前缀树存储这些词语,对于待分词文本,根据前缀树,构建有向无环图,利用动态规划算法,找到路径最短的切分方式。对于不在词典中的词语,利用统计分词方法中的 HMM 算法,对这些词语进行字序列位置标注,根据标注结果进行分词。这样一方面基于词典可以进

14、行有效分词,另一方面对未登录词也可以进行识别切分。但是,对于未登录词分词后得到的词语大部分词长为 2,对于人名,地名,机构组织,专业领域词语等词长大于 2的词语分词效果不是很好。比如对于金融领域“羊群效应”这个领域词组,结巴分词结果为“羊群”和“效应”这两个词,这是不合理的。将“羊群效应”作为一个词进行切分称为领域分词。领域分词是指将领域中的专有领域词组作为整体切分出来,通常的分词算法将一个领域词组切分为几个词,这是不规范的,甚至会导致理解偏差。已知,领域词组通常只是出现在所在领域,属于低频词,因此领域分词是一个具有挑战但是重要的研究领域。张梅山等17通过将词典信息以特征方式融入到统计分词模型

15、来实现领域自适应性。该方法依赖于领域词典信息,严格来说没有完全实现领域自适应分词。韩冬煦等18将卡方统计量特征和边界熵特征加入到训练模型中,并结合自学习和协同学习策略进行训练,改善了分词方法领域适应性。该方法本质上将无监督统计分词方法与有监督统计分词方法结合起来,对于不同领域需要重新训练模型,比较耗费时间。张立邦等9首先利用通用词典对语料进行初步切分,利用 EM 算法不断更新切分结果,直到切分结果不再变化。然后利用左右分支信息熵构建良度,对切分结果进行调整,从而到达识别电子病历中未登录词的目的。该方法本质上是将词典分词方法与无监督统计分词方法结合起来,在对切分结果利用无监督方法调整时,针对电子

16、病历特征定义了相应规则,对于其它领域分词不具有适用性。杜丽萍等19利用改进的互信息算法与少量基本规则结合,从语料中发现新词,将新词加载到汉语词法分析系统 ICTCLAS 中,从而改善汉语词法分析系统 ICTCLAS。该方法在发现新词过程中,只是考虑了词的凝聚度,没有考虑词的自由度。冯国明等20将词典、统计、深度学习三者结合起来,学习分词算法。该方法没有考虑词典存储结构问题,同时利用深度学习算法,模型计算复杂度较高。宫法明等21以自适应马尔科夫模型为基础,结合领域词典和互信息,以语义和词义约束校准分词,实现对石油领域专业术语和组合词的精确识别。该方法需要提前构建石油领域词典,不能用于其它领域分词

17、,领域迁移性较差。针对以上问题,本文在结巴分词基础上,提出领域自适应分词方法。由于结巴分词对词长大于 2 的领域词组分词113效果较差,本文提出的领域自适应分词方法主要利用无监督分词方法识别词长大于 2 的领域词组,从而使得结巴分词无需加载人工定义词典,可以实现领域自适应分词。该方法首先利用结巴分词方法对文本进行分词;其次基于标准化点互信息22和词频统计23两种方式计算相邻词合成为一个词组的凝聚度,设定凝聚度阈值,选择符合条件的词组;接着利用左右信息熵24计算选出词组的自由度,设定自由度阈值,选择符合条件词组;最后利用本文提出的词性约束规则去掉不符合构词规则的词组,尽可能得到正确的领域词组。将

18、得到的领域词组作为结巴分词中自定义词典加入到结巴词库中,再次利用结巴分词对文本进行分词,实现领域自适应分词。本文接下来安排如下:第二节介绍相关知识;第三节介绍本文提出的领域自适应分词方法;第四节介绍实验部分;第五节介绍基于区分领域的领域自适应分词评价方法;第六节是结论。2 相关知识2.1 词组凝聚度的计算给定两个词语,它们组成一个词组的可能性越大,称它们凝聚度越大。本文用两个分数公式来计算词语之间的凝聚度。第一个分数公式基于标准化点互信息22给出。分数公式如下 Score1(w_a,w_b)=1-lnp(w_a,w_b)lnp(w_a,w_b)p(w_a)p(w_b)()(1)其中,w_a 表

19、示词语 a,w_b 表示词语 b;p(w_a,w_b)=count(w_a,w_b)count(corpus_words)表示词语 a 与词语 b 在语料库中共现频率;p(w_a)=count(w_a)count(corpus_words)表示词语 a 在语料库中出现频率;p(w_b)=count(w_b)count(corpus_words)表示词语 b 在语料库中出现频率。Score1(w_a,w_b)是介于-1 与 1 之间的。第二个分数公式基于词语出现频数以及共现词语频数来定义的23,公式如下Score2(w_a,w_b)=1count(w_a)count(w_b)(count(w_a

20、,w_b)-mincount)count(vocab_words)(2)其中,count(w_a)表示词语 a 在语料中出现的次数;count(w_b)表示词语 b 在语料中出现的次数;count(w_a,w_b)表示词语 a 与词语 b 共现的次数;count(vocab_words)表示语料库去掉重复词后的词语个数;mincount 表示设定的两个词语共现次数的阈值,当两个词语共现次数小于这个值时,则舍去由这两个词组成的词组,被用来作为减少出现偶见词组的可能。该分数的取值范围大于 0。设定凝聚度阈值,如果组合词组凝聚度分数大于阈值,则选出该词组,否则,舍弃该词组。计算得到的词组分数值越大,

21、说明词语 a 与词语 b 组成词组的凝聚度越大,该词组越有可能被当作领域词组识别出来。2.2 词组自由度的计算考虑两个词语是否可以构成一个词组,一方面考虑它们的凝聚度,即这两个词语组合成一个词组的黏合性,这个度量可以利用 2.1 中式(1)或者式(2)来定义;另一方面需要考虑所构成词组的自由度,即该词组左右出现的紧邻字是否具有多样性。通常来说,一个词语的上下文是不固定的,可以和多种字结合。本文用左右信息熵24来度量词组的自由度。左右信息熵的公式如下:左熵:EL(W)=-wleftWp(w,W|W)log2p(w,W|W)(3)右熵:ER(W)=-wrightWp(W,w|W)log2p(W,w

22、|W)(4)其中,W 表示一个词组;leftW 表示 W 左边所有紧邻字的集合;rightW 表示 W 右边所有紧邻字的集合;p(w,W|W)表示字 w 紧邻词组 W 左边的概率,通过统计词频来计算,等于字 w 紧邻词组 W 左边的频数与 W 左边所有紧邻字的频数之和的比值;p(W,w|W)表示字 w 紧邻词组 W 右边的概率,等于字 w 紧邻词组 W 右边的频数与 W 右边所有紧邻字的频数之和的比值。取 min(EL(W),ER(W)作为词组 W 的自由度,用来和设定的自由度阈值比较,如果大于阈值则说明词组 W 的左右紧邻字比较多样,W 可以看作一个词组,否则 W 不能作为一个词组。自由度越

23、大,该词组被识别出来的可能性越大。2.3 词性搭配规则由凝聚度和自由度两个统计度量识别领域词组的同时,也会引入一些严格意义上不是领域词组的组合。比如由词语“上”和词语“显著”组成的词组“上显著”,该词组的凝聚度分数和自由度分数大于所设置的凝聚度阈值和自由度阈值,因此词组“上显著”会被当作领域词组识别出来,显然,这是不合理的词组组合。根据短语结构类型25提出了针对结巴分词中词长大于 2 的未登录词的词性搭配规则,实现了对词组的约束,从而尽可能筛选出标准词组。本文中的词性是按照北大词性标注集来定义的。本文提出的词组词性搭配规则如附录 1 所示。3 领域自适应分词方法3.1 领域词组识别在结巴分词的

24、前提下,首先利用凝聚度公式计算结巴分词后相邻词语组成词组的凝聚度,通过凝聚度阈值选出词组候选词;其次利用自由度公式对候选词组计算其自由度,根213据自由度阈值再次选出候选词组;最后根据本文规定的词组词性搭配规则,从候选词组中选出领域词组。凝聚度和自由度用来确定可能是固定搭配的词组,词性约束进一步过滤掉不规范词组,从而得到规范的领域词组。领域词组识别流程如图 1 所示。图 1 领域词组识别流3.2 领域自适应分词方法将利用凝聚度、自由度、词性约束得到的领域词组作为结巴分词自定义词典参与分词,从而实现领域自适应分词。算法流程如图 2 所示。图 2 领域自适应分词算法流程4 实验及结果分析4.1 数

25、据介绍本文中用到的数据来自中国知网,下载金融领域的 100篇论文,这些论文主要集中于投资和证券学科;法律领域的100 篇论文,这些论文主要集中于诉讼法与司法制度学科。将每篇 PDF 文献转化为 txt 格式,利用正则表达式对 txt 格式文献进行处理,得到只含有标点符号,英文字母,数字,中文的文档,然后将相同领域的文档整合为一个文档集。将该文档集以标点符号为分隔符进行切分,得到以行为单位的金融和法律领域文档集。4.2 参数设置当按照标准化点互信息(NPMI)即式(1)计算词组凝聚度时,分数取值范围为-1,1,当分数阈值取-1 时,没有起到任何筛选作用;分数阈值取 1 时,阈值太大,导致筛选词组

26、个数为 0。因此选取 3 个具有代表性阈值,阈值分别取-0.5,0,0.5;当按照词频统计方法即式(2)计算词组凝聚度分数时,由于文献23阈值默认值为 10,因此本文阈值分别取 5,10,15。利用左右信息熵计算自由度,当阈值取 0.1 时,得到词组个数同阈值取 0.5 时相差不大。当阈值取 1.5 时,得到的词组个数同阈值取 1 时相差不大。当阈值取 2.5 时,词组个数同阈值取 2 时相差不大,且此时词组个数不是很多,因此自由度阈值分别取 0.5,1,2。4.3 领域分词评价方法本文利用自己构建的金融与法律领域文本对领域分词进行研究,没有现有的领域分词评价标准可以利用。由于本文是将领域自适

27、应分词方法同结巴分词的领域分词结果进行比较,基于此前提,重新定义评价方法精确率与召回率计算公式,如式(5)与(6)所示。精确率 P=count(W总 W)count(W)100%(5)召回率 R=count(W总 W)count(W总)100%(6)其中,count(W总)表示领域词组标准库中词数;W 表示对文本进行领域分词的结果;count(W总W)表示领域分词结果中属于领域词组标准库中词的个数。以下给出 W总与 W 的计算方式。领域词组标准库 W总计算:将利用式(1)计算凝聚度(凝聚度阈值取-0.5,自由度阈值取 0.1)与利用式(2)计算凝聚度(凝聚度阈值取 0.001,自由度阈值取 0

28、.1)进行领域自适应分词的结果分别记为 W11,W12;将直接利用结巴词库对相同领域文档集进行分词的结果记为 W2。如果词语 wW11W12W2且 wW11W12W2,则将 w 加入到词库中,通过人工查找词库中正确词组作为领域词组标准库,记为 W总。具体流程图如图 3 所示。图 3 领域词组标准库构建流程图313领域分词结果 W 计算:领域自适应分词结果记为 W1,直接利用结巴分词的结果记为 W2,如果词语 wW1W2且wW1,将 w 加入到 Wdic,Wdic记为领域自适应分词算法下领域分词结果;如果词语 wW1W2且 wW2,则将 w 加入到 W结巴,W结巴记为结巴分词下领域分词结果。具体

29、流程图如图 4 所示:图 4 领域分词结果获取流程图4.4 实验结果及分析将凝聚度与自由度不同阈值参数组合得到的领域词组作为自定义词典加入到结巴词库中,对相应领域文本实现领域自适应分词。将得到的领域分词结果同不加自定义词典分词后的领域分词结果进行比较。实验结果:根据定义的精确率与召回率的计算方法,列出领域自适应分词算法与直接用结巴分词算法进行领域分词的精确率及召回率。表 1 表示金融领域结果,表 2 表示法律领域结果。下表中,参数第一列表示凝聚度阈值,阈值参数为-0.5,0,0.5 表示利用式(1)计算凝聚度,阈值参数为 5,10,15 表示利用式(2)计算凝聚度。第二列表示自由度阈值;加词典

30、表示领域自适应分词,不加词典表示直接利用结巴分词;正确词数表示领域分词结果中属于领域词组标准库中词的个数。表 1 金融领域自适应分词与结巴分词对于领域分词的精确率、召回率参数是否使用词典正确词数领域分词词数标准词库词数P%R%-0.50.5+词典8982103271021586.9887.93-词典1508191021518.321.471+词典460952641021587.5645.12-词典794941021515.990.772+词典174219551021589.1017.05-词典342721021512.500.3300.5+词典872599691021587.5285.41-词

31、典1507921021518.941.471+词典449850841021588.4744.03-词典794791021516.490.772+词典171718981021590.4616.81-词典322641021512.120.31参数是否使用词典正确词数领域分词词数标准词库词数P%R%0.50.5+词典159917751021590.0815.65-词典1065001021521.201.041+词典8679161021594.658.49-词典412731021515.020.402+词典4024161021596.633.94-词典14165102158.480.1450.5+词典

32、554259231021593.5754.25-词典1386161021522.401.351+词典299931831021594.2229.36-词典623871021516.020.612+词典123913011021595.2312.13-词典262271021511.450.25100.5+词典440146811021594.0243.08-词典1305771021522.531.271+词典238225091021594.9423.32-词典603561021516.850.592+词典100310441021596.079.82-词典232191021510.500.23150.5

33、+词典375539831021594.2836.76-词典1245491021522.591.211+词典202821361021594.9419.85-词典573381021516.860.562+词典8658991021596.228.47-词典222081021510.580.22 表 2 法律领域自适应分词与结巴分词对于领域分词的精确率、召回率参数是否使用词典正确词数领域分词词数标准词库词数P%R%-0.50.5+词典80029376922385.3586.76-词典170756922322.491.841+词典40294699922385.7443.68-词典86471922318.

34、260.932+词典14951684922388.7816.21-词典41245922316.730.4400.5+词典77298993922385.9483.80-词典175748922323.401.901+词典39074498922386.8642.36-词典94467922320.131.022+词典14571628922389.5015.80-词典46250922318.400.50413参数是否使用词典正确词数领域分词词数标准词库词数P%R%0.50.5+词典12711408922390.2713.78-词典110422922326.071.191+词典634681922393.1

35、06.87-词典39244922315.980.422+词典271286922394.762.94-词典16122922313.110.1750.5+词典46745013922393.2450.68-词典140540922325.931.521+词典23942569922393.1925.96-词典67359922318.660.732+词典928985922394.2110.06-词典30189922315.870.33100.5+词典35973840922393.6739.00-词典135506922326.681.461+词典18181942922393.6119.71-词典613299

36、22318.540.662+词典710750922394.677.70-词典28174922316.090.30150.5+词典30313225922393.9832.86-词典133494922326.921.441+词典15271624922394.0316.56-词典59314922318.790.642+词典582617922394.336.31-词典27163922316.560.29 实验结果分析:总体来看,结巴分词对于领域分词来说,准确率和召回率远远低于本文提出的领域自适应分词算法。通过表 1 与表 2 中精确率和召回率可以看出,当凝聚度分数阈值不变时,随着自由度阈值越大,识别的

37、领域词组越少,此时,领域自适应分词精确率越高,召回率越低;对于同一凝聚度计算公式来说,当自由度阈值不变时,凝聚度分数阈值越大,识别的领域词组越少,领域自适应分词精确率越高,召回率越低;基于 NPMI 即式(1)与词频统计即式(2)计算词组凝聚度,当最终识别词组个数相差不大时,利用式(2)识别领域词组得到的精确率与召回率均高于式(1),说明将NPMI 与左右信息熵搭配,比词频统计与左右信息熵搭配识别领域词组的效果差。通过表 1 与表 2 中正确词数可以看出,领域自适应分词算法切分出来的领域词组远远多于结巴分词切分出来的领域词组;通过领域分词词数可以看出,领域自适应分词得到总词数多于结巴分词总词数

38、,这是因为领域自适应分词得到的词组长度一般大于 2,重复词比较少;结巴分词分出来的词中大部分词长为 2,重复词比较多,因此去重后剩余词数较少。领域自适应分词由于加入了领域词组,从而调整了分词切分位置,可以将领域词组作为整体识别出来,相比于结巴分词,领域自适应分词算法提高了领域分词准确率与召回率。因此本文提出的领域自适应分词算法是有效的。5 基于区分领域的领域自适应分词评价方法为了从不同角度证明领域自适应分词算法的有效性,本文基于区分领域给出了领域自适应分词的评价方法。对于不同的两个领域,利用分词算法对文本进行分词后,度量这两个领域分词后文本的距离,如果距离越大,称该分词方法区分领域的效果越好,

39、即该分词方法能够有效实现领域分词。基于此概念,本文提出了一种基于 word2vec23的度量方法,用来对领域自适应分词算法区分领域的效果进行评价。5.1 基于 word2vec 的度量方法将利用领域自适应分词算法得到的金融领域分词结果记为 W 金融dic,法律领域分词结果记为 W 法律dic;将直接利用结巴分词得到金融领域分词结果记为 W 金融jieba,法律领域分词结果记为 W 法律jieba。利用 word2vec 求解词向量,在此基础上给出领域自适应分词方法区分领域效果的度量方法:距离差度量法。公式如下difference=distance(vector(W 金融dic),vector(

40、W 法律dic)-distance(vector(W 金融jieba),vector(W 法律jieba)(7)其中distance(vector(W 金融),vector(W 法律)=1-vector(W 金融)vector(W 法律)|vector(W 金融)|vector(W 法律)|vector(W 金融)与 vector(W 法律)指金融领域文本与法律领域文本的向量表示,通过对相应领域文本分词后求解所有词语向量的平均值得到,即vector(W 金融)=1count(W 金融)wW金融vector(w)vector(W 法律)=1count(W 法律)wW法律vector(w)式(7)

41、表示利用领域自适应分词算法对金融和法律领域进行分词后,这两个领域文本距离与利用结巴分词算法对金融和法律领域分词后文本距离的差值。如果这个差值大于 0,表示利用领域自适应分词算法分词后,区分领域的效果优于利用结巴分词。这个差值越大,说明领域自适应分词算法区分领域效果越好。5.2 区分领域的效果分析利用领域自适应分词算法分别对金融领域、法律领域文本分词,得到词典大小分别为 292621、260845;直接利用结巴分词算法对金融领域、法律领域文本分词,得到词典大小分别为 354325、316261。本文利用 Word2vec 中 skip-gram 模513型26来训练词语向量,上下文窗口大小参数设

42、置为 5,向量维度设置为 500 维。利用 5.1 中定义的距离差度量法,有difference=distance(vector(W 金融dic),vector(W 法律dic)-distance(vector(W 金融jieba),vector(W 法律jieba)=1.002-0.9852=0.0168可以看出,利用领域自适应分词后区分领域的效果优于结巴分词区分领域的效果,说明领域自适应分词算法相比于结巴分词有效实现了领域分词。6 结论本文提出了一种领域自适应分词算法,在结巴分词的基础上,利用标准化点互信息及词频统计方法计算相邻词语组成词组的凝聚度,左右信息熵计算词组的自由度,词性约束筛选

43、规范词组,将最后得到的领域词组作为自定义词典加入到结巴词库中参与分词,从而完善了结巴分词。通过在 100篇金融领域文章和 100 篇法律领域文章上进行实验,说明该方法可以有效发现领域词组。利用精确率和召回率对领域分词结果进行评价,发现相比结巴分词,领域自适应分词算法提高了领域分词的准确率和召回率。最后提出了一种基于区分领域的领域自适应分词评价方法,利用 word2vec 获取词向量,通过定义距离差度量公式来进行评价,实验结果表明,领域自适应分词算法区分领域效果优于结巴分词,即该算法能够有效进行领域分词。由于领域自适应分词算法是在结巴分词基础上识别领域词组,如果结巴分词切分错误,则导致得到的领域

44、词组是错误的,因此在下一步工作中,可以考虑直接对文本识别领域词组,从而避免引进错误领域词组。该算法对结巴分词后相邻词语进行组合,对于单字与双字组合的词组识别结果不是很好,会将不规则词组别识别出来;对于双字词语组合,会出现结合顺序前后紊乱情况。在下一步工作中,可以通过其它约束方法来尽量规避这两种情况的发生。对于基于区分领域的评价方法,本文直接求解文本所有词向量平均值来表征文本,在下一步工作中,可以提出其它向量计算方式来表征文本,从而提高评价方法的精确度。参考文献:1 孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究J.中文信息学报,2000,(1):1-6.2 李庆虎,陈玉健,孙家广.一种

45、中文分词词典新机制双字哈希机制J.中文信息学报,2003,(4):13-18.3 赵欢,朱红权.基于双数组 Trie 树中文分词研究J.湖南大学学报(自然科学版),2009,36(5):77-80.4 莫建文,郑阳,首照宇,等.改进的基于词典的中文分词方法J.计算机工程与设计,2013,34(5):1802-1807.5 唐琳,郭崇慧,陈静锋.中文分词技术研究综述J.数据分析与知识发现,2020,4(Z1):1-17.6 Rabiner L R.A tutorial on hidden Markov models and selected ap-plications in speech re

46、cognition J.Proceedings of the IEEE,1989,77(2):257-286.7 Low J K,Ng H T,Guo W.A maximum entropy approach to Chi-nese word segmentationC.Proceedings of the Fourth SIGHANWorkshop on Chinese Language Processing.2005.8 Peng F.Chinese segmentation and new word detection using condi-tional random fieldsJ.

47、ResearchGate,2004.9 张立邦,关毅,杨锦峰.基于无监督学习的中文电子病历分词J.智能计算机与应用,2014,4(2):68-71.10 Zhao H,Kit C.An empirical comparison of goodness measures forunsupervised Chinese word segmentation with a unified frameworkC.Proceedings of the Third International Joint Conference onNatural Language Processing:Volume-I.20

48、08.11Vincent P,Larochelle H,Lajoie I,et al.Stacked denoisingau-toencoders:Learning useful representations in a deep networkwith a local denoisingcriterionJ.Journal of machine learning re-search,2010,11(12).12 Chen X,Qiu X,Zhu C,et al.Long short-term memory neuralnetworks for chinese word segmentatio

49、nC.Proceedings of the2015 Conference on Empirical Methods in Natural Language Pro-cessing.2015:1197-1206.13Mikolov T,Chen K,Corrado G,et al.Efficient estimation ofword representations in vector spaceJ.arXiv preprint arXiv:1301.3781,2013.14 Pennington J,Socher R,Manning C D.Glove:Global vectors forwo

50、rd representationC.Proceedings of the 2014 conference onempirical methods in natural language processing(EMNLP).2014:1532-1543.15Peters M E,Neumann M,Iyyer M,et al.Deep contextualizedwordrepresentations J.arXivpreprintarXiv:1802.05365,2018.16 Vaswani A,Shazeer N,Parmar N,et al.Attention is all youne

展开阅读全文