电子商务搜索引擎中文分词算法分析.docx

资源描述

电子商务搜索引擎中文分词算法分析卢媛媛，何海燕，张剑 (北京理工大学管理与经济学院，北京100081) 摘要：本文提出了电子商务行业搜索引擎的概念，通过对通用搜索引擎技术进行分析，结合电子商务行业对搜索引擎的需求提出需要改进的部分，并设计出一个电子商务行业搜索引擎整体结构；此外，讨论了几种搜索引擎的中文分词算法，结合电子商务行业的特点对分词算法进行了改进，提出一种适用于电子商务行业搜索应用的全新分词系统。最后，结合整体结构与分词系统并利用已有的网络开源项目，实现了一个电子商务行业搜索引擎。关键词：搜索引擎；中文分词；电子商务删：A 0引言随着互联网的迅速发展，电子商务让消费方式变得更为快捷，更多的人涌向网上商店，网络市场前景巨大，拥有更为广阔的发展空间。面对海量的网络信息资源，人们可以通过传统的搜索引擎，如Google、百度、中搜等，方便快捷地获取所需商业信息。尽管通用搜索引擎的功能非常强大，但是对于检索某一特定行业的信息时，通用型搜索引擎对信息的挖掘深度不够查询一个行业的网络信息如果没有优秀的专业检索T．具，没有体现行业独特的词汇和用语以及相应的标引和检索语言，检索结果就不可能理想。因此，建立面向持定行业领域的专业性搜索引擎已经成为搜索引擎新的发展趋势。本文就是存深入研究通用搜索引擎的基础上，设计开发出适合电子商务行业的搜索引擎。 1技术挑战中文自动分词是中文信息处理的一项重要的基础性工作，以中文作为信息的载体的语言文字信息处理已经成为我国信息化建设的“瓶颈”。许多中文信息处理项目中都涉及到分词问题，如机器翻译、自动文摘、自动分类、中文文献库全文检索、搜索引擎等。由于中文文本是按句连写的，词之间没有空格，因而在中文文本处理中，首先遇到的问题是分词的问题。词的正确切分是进行中文文本处理的必要条件。在电子商务需求的强大动力推动下，自动分词已经成为中文信息处理的一个前沿课题。中文分词技术的优劣直接关系到搜索引擎的效率，建立电子商[来自wWw.Lw5u.coM]务行业搜索引擎需要解决好其中的中文分词模块，选择适合行业特点的中文分词技术来构建中文分词模块是一项极其重要的基础性工作。如何面向大规模开发应用是中文分词研究亟待解决的主要问题。目前看来，在处理大规模开发文本时，中文分词系统还将面临以下困难： 1)如何识别未登录词。由于不存在绝对完备的词典，尽管一般的词典都能覆盖大多数的词语，但是有相当一部份的词语不可能穷尽地收录到系统词典中，这些词语称为未登录词或新词；2）如何廉价高效地获取分词规则是中文分词系统设计中不可忽视的问题之一；3）词语边界歧义。对于一个指定的中文句子或汉字串，有多种词语边界划分形式。 2分词系统的原理及设计迫于中文信息处理的重要性，来自语言学界、人工智能领域和情报检索界的专家学者们，在汉语白动分词与自动标引的研究与实践上进行了大量的研究，找到了许多解决汉语分词的方法。现有的分词算法可分为三大类：1）基于字符串匹配的分词方法；2）基于理解的分词方法；3）基于统计的分词方法。目前国内一些大学及科研组织已经开发的每一个分词系统都有各自的分词词表，词表之间的差别也是较大的。对于分词的歧义处理，已经进行了比较深入的研究，人们通过统计和规则相结合的方法，使得歧义字段的正确切分达到了较高的水平，同时也认识到歧义的解决需要细致的、个性化的知识积累；另一方面，无论词表规模多么大，未登录词语的存在是必然的。因此，与分词的歧义处理相比较，未登录词语的处理成为影响分词正确率的最主要、最直接的因素，这也是当前的一个研究热点。下文仅选择前面两种方法介绍，在对中文分词算法进行较深入研究后，我们将设计出适合电子商务行业搜索引擎的中文分词系统。 3.1基于字符串匹配的分词方法这种方法又分为正向最大匹配( FMM)，逆向最大匹配( BMM)，以及两种方式的结合等。这种方法实现简单，但同时性能也受到限制，而且不具备对未登录词的识别功能。这种方法一般都结合一些规则或者统计信息来修正前面的分词结果或进行未登录词的识别。在对分词性能要求不高的情况下，这种方法是一个不错的选择。 1)正向最大匹配分词正向最大匹配法( Forward Maximum Matching Method，FMM)的基本思想是字符串拼配算法的延伸，根据梁南元的统计，FMM方法的错误切分率为1／169。用这种方法进行分词的时候，不会对歧义处理带来任何好处。因此，目前FMM方法一般不单独使用，而是与其他方法配合使用。 2)反向最大匹配分词与FMM对应的是反向最大匹配分词(Backward MaximumMatching Method，BMM)。它的分词过程与FMM方法相同，不过是从句子（或文章）的末尾开始处理，每次匹配不成功时去掉最前面的一个汉字。BMM精度要比FMM稍高．错误切分率为1/245。在BMM中仍然不可以避免歧义的情况发生，于是将正向最大匹配分词和反向匹配分词结合起来，可以识别分词中的交叉歧义，但是组合歧义却不可切分出来。 3.2基于统计的分词方法基于字符串匹配的方法是分词的经典方法，至今仍是分词的主流方法。它实现相对简单，分词效果好，不需要复杂的训练过程，而且运行速度也比较快，比较容易实用化，但需要有一个带有统计信息的词典，本身不具备未登录词识别的功能，未登录词的识别一般需要用一些其它的机器学习算法来实现，如基于隐马模型的角色标注方法。所以，提出了基于统计的分词方法，如词网格( Word Lattice)分词法，它具有比较高的分词正确率和较好的可扩充性。可以加入相应的统计信息来扩展不同的功能。 3.3 ZS中文分词系统的设计分词系统主要包括如下几个模块：原子切分，全切分´时间数词识别，生成N条最优路径，人名识别，地名识别，生成分词结果序列。其他的模块共同维护着一个最重要的数据结构——切分词图。切分流程图如图1所示：给定一个输入的字串，首先把它切分成一个原子的序列，然后把这个原子序列中的每一个原子都作为词添加到切分词图中，同时把这个原子序列作为全切分模块的输入。全切分模块的任务是找出输入字串中所有在词典中出现的词并把每个词添加到切分词图中。接下来是时间数词识别，它的输入是原子序列，利用自动机的方法找出输入字串中出现的数词和时间词并添加到切分词图中。然后根据以上几个阶段建立的切分词图生成N条最优的分词序列，以此作为接下来的人名识别和地名识别的输入。人名识别和地名识别对每一条分词序列进行角色标注，从角色标注结果序列中找出所有可能的人名和地名并添加到切分词图中。至此，整个切分词图建立完毕，根据这个切分词图，寻找出一条最优的路径作为最后的分词结果序列。最后，将分词结果作为最后的分词系统的输出结果。下面给出ZS算法的伪代码： ZSECMENT(A[1..n]) 1 Word Lattice Segment(A[1..n]) //调用词网格分词 2 Add all every atom to SegmentGraphl //添加原子到切分词图 3 Complete Segment([atoml..atomml)//调用全切分函数 4 for i=1 to 5 if find(Dictionary, atomi)=TRUE 6 then arld atomiinto SegmentGraph2 7 //时间数词识别 8 Automata([atoml..atomml) 9 find time and number words in atomi 10 add them into SegmentCraph3 11 //综合 12 CompareSegmentGraphi(1=1,2,3) 13 return N-best paths 14 //名地名识别 15 NameRecognition(N-hest paths) 16 return all names 17 add all names into SegmentGraph 18 Find the best paths among SegmentGraph 19 0UTPUT (best path) 3.4 ZS算法的优点和不足该算法首先采用了词网格分词方法对输入字串进行切分，这样可以在一定程度上避免基于字符串匹配得分词方法的分词准确率低的弊端。ZSEGMENT分词算法使用层进式最优路径算法，通过E述步骤并根据分词词典对字串进行全面准确的切分，最后的输出基本上能使搜索引擎达到对信息的掌握。针对电子商务行业的特性，对分词用词典进行了专门的设计，对词条作了专业的扩充。相比较一般的中文分词算法，本算法目标明确集中于一个特定行业，并在日前比较流行的方法的基础上作出改进和整合，使ZSEGMENT算法的效率有所提高，把人名识别和数词识别与切分词部分进行分离，有助于提高准确率，然后通过整合分析，能准确反映一些与电子商务行业关系紧密的信息，适合电子商务行业搜索引擎使用。但还有一些尚未处理的问题，诸如未登录词的识别、歧义识别等，需要以后的研究进一步解决。分词词典中[来自wwW.lw5u.coM]除了收录日常用词外，还收录了一些电子商务行业专用词汇，并提供判断有关词汇是否与本行业相关的功能，用于搜索结果巾网页的相关度排序。由于能力有限，分词词典的容量离真正的应用还有很大的差距。 4电子商务行业搜索引擎的实现 Nutch搜索引擎是一个用Java语言实现的开源搜索引擎，它提供了运行搜索引擎所需的全部工具。Nutch可以与当前流行的通用搜索引擎相媲美。它有极好的透明度，所以本文选取Nutch作为研究电子商务行业搜索的底层平台。 4.1整体结构在构建搜索引擎时我们将采用Nutch作为电子商务行业搜索引擎的主框架，其结构图如图2所示：该图的基本流程与上文所建立的结构流程图基本类似，在搭建搜索引擎时我们只需修改Nutch的源码就会得到电子商务行业搜索引擎的。 4.2分词模块本文更为关心的是中文搜索引擎，故在图2由Content向Indexers这一步骤之间添加人中文分词模块以适合中文搜索引擎的需求。 5结论本文在借鉴传统搜索引擎的相关技术并结合电子商务自身的特点基础上，构建出了一个电子商务行业搜索引擎的原型系统，并对其中涉及到的若干关键性问题进行了研究和探讨，并提出了解决方案，可以应用于需要对网络信息进行深层次加工、处理的相关应用中。本系统的设计与实现也可以加以改进，如加入文本分类模块、关键字识别模块，进而用来开发情报采集系统，帮助企业及时掌握市场动态，随时了解竞争对手信息，准确把握行业发展趋势和国家最新政策，从而在市场竞争中获胜。当然，本搜索引擎还是很初步的，在获取信息的全面性和准确性等方面还可以改进，另外，应能在人工智能和数据挖掘领域深入研究，使该搜索引擎的搜索性能更优。（责编程斌）参考文献： [1]冯书晓，徐新，杨春梅，国内中文分词技术研究新进展[J]情报杂志，2002，(11)：29-30． [2]梁南元书面汉语的自动分词与另一个自动分词系统CDWS[C]．中国汉字信息处理系统学术会议，桂林，1983． [3]Andi Wu. Chinese Word Segmentation in MSR-NLP[EB].MicrosoftResearch．2004. [4]张会鹏．中文词法分析技术的研究与实现[D]哈尔滨：哈尔滨工业大学，2006． [5] Otis Gospodnetic. Erik Hatcher．Lucene in action中文版[M]．北京：电子工业出版社，2007 作者简介：卢媛媛(1982-)，女，博士研究生，主要研究方向：电子商务、国际贸易、数据挖掘；何海燕(1963-)，女，博士生导师，主要研究方向：企业管理、公共政策分析；张剑(1986-)，男，博士研究生，主要研究方向：国际贸易。 -全文完-

展开阅读全文