资源描述
摘 要:在军事领域信息抽取中军事组织机构名扮演着非常重要的角色。因此在军用文本中如何正确识别出军事组织机构名是一个非常重要的研究课题。在对军用信息文本进行深入的研究和分析的基础上,总结出了军事组织机构名的结构特征和上下文信息,并采用双层模型进行识别。初步实验结果为:开放式精确率、召回率和F 值分别达到93.34%、94.85%和94.09%。
关键词: 军事组织机构名;支持向量机;条件随机场
0 引言
随着计算机以及相关信息处理技术的日渐成熟和发展,为进一步提高军队指挥效能提供了有效手段。现代战争中,信息化体现得越来越明显。信息化战争使得战场上信息量激增,迫切需要对这些丰富而杂乱的信息进行处理和识别。如何从大量信息中迅速有效地提取出所需信息成了一大难题,军用命名实体识别是解决此类难题的有效方法。本文正是基于现代战争的信息化特点,研究这一背景下的军用信息中实体识别问题。
命名实体识别的研究是自然语言处理中的一项基本工作,在句法分析、机器翻译、信息检索、信息抽取以及自动问答系统等领域中有直接的应用[1] 。近年来,中文命名实体识别研究已经取得了较大的进步。如文献[1]对人名和地名的开放测试的召回率分别达到了88.49%和88.19 % ,文献[2]中,对中文机构名的开放测试的召回率为90.05 % ,准确率为88.12%。文献[3]利用边界模板和局部统计相结合的方法, 对中文人名的开放测试的准确率为94.52 % ,召回率为98.97%。
关于命名实体的识别国内外都已经有了大量的研究工作,尤其是在人名和地名的识别方面。而在机构名的识别方面相对比较少,涉及到中文军事机构名识别的更少。本文中提到的军事组织机构名不只是典型的机构名,如:组织、部等等,还将如:战争、武器、行动等不属于组织机构名但结构上与机构名相似的军事专用名词一并进行分析与研究。这些军事专用名词在军用信息中扮演着非常重要的角色。
目前,在特定领域,命名实体的研究也具有非常重要的意义。如文献[4-5]分别采用SVM(Support Vector Machine,支持向量机)和HMM ( Hidden Markov Models,隐马尔可夫模型),进行了生物医学领域中蛋白质、基因、核糖核酸、脱氧核糖核酸等实体识别,其中文献[4]的F 值达到了71.7 %。文献[6]采用HMM 进行了商务领域中产品名、产品型号、产品品牌等命名实体的识别,总体效果达到了将近80 %。在军事领域,军事机构名、武器、行动等实体的识别也很重要,它直接关系到军事问答系统中问句类型的判定和答案的抽取。
在军事领域中,军事组织机构名的组成和中文组织机构的组成相似,经常会嵌套一些其他词,如:“冷兵器”、“国际原子能机构”、“侦察机”、“自动步枪”等。目前有关中文特定领域组织机构名的识别研究较少,主要使用一些规则方法和HMM。文献[7-8]提出了基于启发式规则的机构名识别方法,虽然识别准确率较高,但由于机构名种类繁多,对各类机构名要总结出统一的识别规则,基本上是不可行的。文献[9]提出了一种基于HMM 的角色标注方法识别中文组织机构名。但由于HMM 是一种产生式模型,它存在一些固有缺陷与不足:
第一,为保证推导的正确性,需要做出严格的独立性假设。事实上,大多数序列数据都不能被表示成一系列独立的元素,而且部分序列存在长距离依赖。第二,HMM 完全依靠词性作为观察值,不能借助任何语义或是标志词信息,大大制约了系统识别的性能。即使采用HMM和规则相结合的方法,可以在HMM 识别结果基础上,加入词汇特征信息,有助于提高识别效果。但是规则制定比较麻烦,需要耗费大量的人力。条件随机场(Conditional Random Fields )是一种新的概率图模型,它具有表达元素长距离依赖性和交叠性特征的能力,能方便地在模型中包含多种特征,而且能够避免最大熵模型的标注偏置问题等优点。本文提出了一种基于SVM和CRF 相结合的双层模型的军事组织机构名的识别方法,该方法将识别过程分为两层,低层模型采用字一级进行建模,识别简单机构名等,然后将识别结果传递到高层模型,在高层采用词一级进行建模,识别嵌套的复杂机构名。
1 模型介绍
1.1 支持向量机(SVM)支持向量机(SVM)是在统计学习理论上发展而来的一种通用学习算法[10,11]。SVM从本质上讲是一种前向神经网络,根据结构风险最小化准则,在使训练样本类误差极小化的前提下,尽量提高分类器的泛化推广能力。从实施的角度讲,训练支持向量机的核心思想等价于求解一个线性约束的二次规划问题,寻找一个超平面作为决策平面,使得特征空间中两类模式之间的距离最大,而且能保证得到的解为全局最优解。通过核函数变换的方法,支持向量机可将在低维空间无法线性分类的样本映射到高空间进行分类,很好地解决了有限数量样本的高维模型构造问题。支持向量机优于已有机器学习方法一个重要方面是高维处理能力,即SVM的学习误差不依赖于特性空间维数,不会出现其它机器学习方法的“过学习”现象。
1.2 条件随机场(CRF)条件随机场是一个在给定输入节点条件下计算输出节点的条件概率的无向图模型。条件随机场是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,计算下一个状态的状态分布。对于观察值序列x 和状态序列y,可以定义一个线性的CRF 模型,形式如下:
其中当xv=x,yv=y 时值为1,其他情况时为0。
这里,这些特征的参数基本上等价于HMM 中的转移概率p(y′|y)和发射概率p(x|y)的对数值。可用比例迭代算法对CRF 模型进行训练。
2 特征分析
2.1 军事组织机构名的结构特征结构工整的军事组织机构名的构造一般遵循P+S 的结构,即属于“定语+名词性中心语”
型的名词短语。根据这种特点,将军事组织机构名的识别分为右边界识别和前部标注两部分,用SVM 来识别机构名的右边界,然后对己经识别出的右边界向前采用CRF 进行前部标注,寻找机构名的左边界。机构名右边界的识别本质上就是一个二值分类问题,而SVM 是非常优秀的二值分类器,因此采用SVM 进行右边界识别;复杂机构名的前部词成分相对比较复杂,用词比较随意,而CRF 能够充分利用上下文信息作为特征,还可以任意的添加任何外部特征,因此采用CRF 进行前部标注。
2.2 识别所需的资源采用机器学习的方法进行中文信息处理时,通常需要学习大量的资源以获得有效的信息。军事组织机构名识别也不例外,在识别过程中需要一系列的词表资源进行辅助识别,有些是从互联网上直接得到的,有些是从训练语料中提取的。
2.3 特征词表特征词一般来说都是普通名词,比如“舰、机构、组织”,这是军事组织机构名中最有规律可循,也是最容易收集的一部分,可以给复杂机构名的识别提供非常有效的信息,而且该词表的完备程度直接影响到识别的精度。为了保证该词表的完备性,本文除了从训练语料中提取出一个特征词表,还从网上得到一部分特征词的资源,并进行合并。
2.3.1 前部词表前部词的用词总体来说比较复杂,并且有很强的随意性,但是经过统计发现,前部词在词性的分布上存在一定的规律,该词表为复杂机构名的识别提供了重要的信息。由于前部词的随意性和不稳定性,本文从训练语料中提取了一个常用前部词表,仅将出现频度大于某阀值的前部词进行收集。
2.3.2 左右指界词表左右指界词是确定机构名边界的重要凭证,对机构名左右边界的确定显然有重要的作用。通过统计发现,不同的指界词对机构名边界的指示作用是不同的。本文根据指界词与机构名的同现概率将其分为两级[12],一级词作为指界词的几率较大,二级较小,没有出现在该词表中的词认为其作为指界词的几率非常小,近似为零。
2.3.3 常用简单机构名表简单机构名数量有限,容易收集,出现的频率很高,将该部分词统计为一个常用简单机构名表。该词表主要用于简单机构名的识别,存在于该词表中的词作为简单机构名的概率非常大。
3 识别流程
3.1 系统结构该识别模型分两层进行军事组织机构名识别:在低层选择合适的特征,采用CRF 识别简单机构名,并将识别结果传至高层,辅助复杂机构名的识别;在高层针对不同类型的文本,采用SVM 与CRF 结合的方法进行复杂机构名的识别,然后将两层的识别结果进行合并。军事组织机构名识别的整体流程如图1 所示。
3.2 训练数据的生成军事组织机构名的识别最终可以转化为序列标注的任务,因此首先要定义适合该任务的标记集合,不同的标记集对识别结果有一定的影响[13]。简单机构名只由一个词组成,因此文本采用一标记“S”即可;复杂机构名的长度较长,而且不固定,应该采用多标记。从效果和效率两方面考虑,对复杂机构名的识别采用四标记“B、Ml、M、L”,各标记集的意义如表1 所示。
3.3 特征模板的构造(1)采用CRF 模型进行序列标注时,原则上是特征越多可利用的信息就越多,识别效果也就越好。但是过多的特征同时会带来大量的冗余信息,不但会降低识别效率,而且会对识别造成干扰导致错误。中文机构名本身的构成具有很大的随意性,仅仅依靠对其本身结构和用字的分析很难取得好的识别效果,因此机构名所具有的上下文语言环境对于提高机构名识别的效果能起到很大的作用。
原子特征只考虑当前的一个观察单元,显然不能充分利用丰富的上下文信息,通过原子特征的组合就可以表示更为复杂的上下文信息。组合特征模板如下:
复杂机构名的用词、结构相对比较复杂,将复杂机构名的识别分为右边界识别和前部标注两部分,即首先确定一个词是否为机构名的右边界,对确定为机构名右边界的词向前进行前部标注,寻找机构名的左边界。在右边界识别的过程中,只对出现在特征词表中的词使用SVM 模型进行判断,看该词是否为机构名的右边界,如果确定为右边界,则从该词向前进行前部标注,直到标注到非机构名成分。前部标注任务的原子特征选定如表3 所示。
Former_word(n) 若当前词存在于前部词表中则标为Y,否则标为NL_spe(n) 若当前词前面第一个词存在于左指界词表中则标为Y,否则标为NIs_smp(n) 若当前词识别为简单机构名则标为Y,否则标为NIs_condidate(n) 若当前词确定为右边界则标为L,若为候选词则标为U,否则标为O同简单机构名一样,对上述特征也要进行左右两个位置的偏移,表中n的取值为(-2,-1,0,1,2)。为了更好的利用上下文信息,同样需要定义组合特征,经过实验分析确定组合特本文所使用的语料由互联网上近期军事类新闻构成,共568 篇。首先,我们对该军事领域语料进行了分词、词性标注和简单机构名标注,形成了机构名的标准语料;其次,对真实文本中的军事组织机构名进行分词、词性标注,得到了军事组织机构名识别必要的资源。用精确率(Precision)、召回率(Recall)和F 值对识别结果进行评价,其中:
(1)特征词收集不全,导致有些专有名词未能识别。如:“核峰会”等。随着特征词的不断扩充,这个问题可以得到比较好的解决。
(2)机构名简称的识别方法仍不健全。如:“美国中央情报局”,在文中以全称出现时可以识别,但以“中情局”的简称形式出现时无法识别。这个问题将在进一步的工作中解决,可以考虑抽取机构名组成词的第一个字,组成机构名字串,在遇到该字串或其子串时认为它们有可能是机构名简称。
(3)有的机构名称不规范。如:“对台军售”。此类问题在下一步工作中将根据上下文信息,通过局部统计的办法来解决。
4 结论
机构名识别是相对比较困难的任务,本文得出如下结论:
(1)通过分析军事组织机构名的特点,设计出双层模型来进行识别,已取得不错的效果,但许多方面需要改进。融合更多的语言学知识,从而消除模型对训练数据的过拟合,使模型具有更好的泛化能力,并且加大语料的规模。
(2)本文通过实验发现,绝大多数的军事组织机构名称是比较规范的, 是比较好处理的。这种总体上的规范性和局部上的多变性灵活性, 正说明特定领域的机构名称和专有名词无论对于语言学还是计算机科学来说都是很值得进一步研究的。本文仅作了军事领域中军事组织机构名识别的一些初步探索。
展开阅读全文