ImageVerifierCode 换一换
格式:DOC , 页数:4 ,大小:24.54KB ,
资源ID:3891063      下载积分:5 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/3891063.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(中文机构名识别的设计与实现-开题报告.doc)为本站上传会员【精****】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

中文机构名识别的设计与实现-开题报告.doc

1、中文机构名识别的设计与实现 课题背景 随着互联网的大规模普及和社会信息化程度的提高, 文本信息的快速积累使公司、政府和科研机构在信息处理和使用中面临前所未有的挑战。一方面, 互联网和各种信息机构每天都不断产生大量的有价值的文本数据; 而另一方面, 因为技术手段的落后, 从这些文本数据资源中获取需要的信息十分困难.人们迫切需要研究出方便有效的工具去从大规模文本信息资源中提取符合需要的简洁、精炼、可理解的知识, 文本挖掘就是为解决这个问题而产生的研究方向。 文本挖掘也称为文本数据挖掘或文本知识发现, 它是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程, 同时运用这些

2、知识更好地组织信息以便将来参考。【2】 文本挖掘的主要目的是从非结构化的文本文档中提取有趣的、重要的模式和知识。所以它可以看成是基于数据库的数据挖掘或知识发现的扩展.但与传统的数据挖掘相比, 文本挖掘有其独特之处, 主要表现在: 文档本身是半结构化或非结构化的, 无确定形式并且缺乏机器可理解的语义; 而数据挖掘的对象以数据库中的结构化数据为主, 并利用关系表等存储结构来发现知识。直观地说, 当数据挖掘的对象完全由文本这种数据类型组成时, 这个过程就称为文本挖掘。文本挖掘在许多方面具有广泛的应用,例如:主动信息服务方面、信息检索系统方面、专利信息分析方面等等。 选题意义 文本挖掘最

3、基础、最重要的步骤就是命名实体的识别,识别出文本中的人名、机构名称等。命名实体识别(NE)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。 其中机构名称泛指机关、团体或其他企事业单位,包括学校、公司、医院、研究所和政府机关等的名称.机构名称是专有名词的一个子集,数目也特别庞大。与人名地名相比,机构名称这类专有名词还很不稳定.随着社会的发展,新机构不断涌现,旧机构不断被淘汰、改组或更名。此外,机构名称的组成还没有国家统一规范,绝大多数未能收入词典【1】.这些事实都说明机构名称的识别与分析是一个很值得研究的问题,对中文输入、机器翻译、人机对话和文本挖掘的其他的应用等

4、自然语言处理领域都具有相当大的实用价值。 关于国内外的研究动态 目前英文的命名实体的识别已经达到了较高的水平,中文由于一些限制,识别命名实体更加困难。中文命名实体识别的难点主要存在于:(1)中文文本没有类似英文文本中空格之类的显式标示词的边界标示符,命名实体识别的第一步就是确定词的边界,即分词;(2)中文分词和命名实体识别互相影响;(3)除了英语中定义的实体,外国人名译名和地名译名是存在于中文中的两类特殊实体类型;(4)现代中文文本,尤其是网络中文文本,常出现中英文交替使用,这时中文命名实体识别的任务还包括识别其中的英文命名实体;(5)不同的命名实体具有不同的内部特征,不可能用一个统一的模

5、型来刻画所有的实体内部特征. 中文命名实体识别的特点是数量众多和构成规律复杂,其中机构名的识别最为困难。机构名的种类繁多,各有其独特的命名方式,用词相当广泛,只在结尾用词相当集中。长度和边界难以确定使得机构名更难识别。 命名实体识别的主要方法分为:基于规则的方法和基于统计的方法。隐马尔可夫模型作为一种统计分析模型,是用于命名实体识别的常用方法。其中,隐马尔可夫模型(Hidden Marka Model ,HMM)是一种统计模型【3】,自20世纪60年代被提出后,成功地应用于语音识别、生物信息、词性标注等领域,具有研究透彻、算法成熟、效率高、效果好、易于训练的优点。因此,我们将HMM应用于机

6、构名识别,可以根据机构名的种类、命名方式、用词、长度和边界的不同,形成不同的隐马尔可夫链或函数集,能达到较好的识别效果。 三、 研究目标及内容 (一)系统目标 本系统采用隐马尔科夫模型来实现,最终达到识别中文机构名的目标。不仅可以使我们有效地识别中文机构名,还可以提高中文机构名识别的准确性,降低中文机构名识别的复杂度,加深对中文机构名识别的了解和研究.具体要求如下:实现股票交易所、国际组织、商业组织、公私企业、电视台或广播台、政党、宗教组织、乐队或音乐组织、政府实体、运动队、军队等各类机构名的识别。 (二)毕业设计内容 1、理论部分 本系统采用隐马尔科夫模型来实现,通过

7、对机构名的标注来实现机构名的识别。其中,机构名的标注分为基于分词基础上的机构名标注和不分词的机构名标注两种。基于分词基础上的机构名标注是根据词性的不同,先将文本进行切分,再进行标注;而不分词标注是将机构名看成一个整体进行标注。本系统根据在机构名识别中的作用,采用Viterbi算法【4】对切分结果进行角色标注,在角色序列的基础上,进行字符串识别,最终实现中文机构名的识别。识别过程中我们只需要某个词作为特点角色的概率以及角色之间的转移概率。该方法的实用性还在于:这些角色信息完全可以从真实语料库中自动抽取得到。此方法在人名和地名识别的基础上,对机构名内部构成角色进行有选择的分类,然后采用隐马尔科夫模

8、型,对分词结果进行机构名构成角色的标注,最后,在角色序列上进行模式串识别,并最终识别出机构名。 2、系统的实现 a.基本框架 文本 测试 训练 预处理 特征提取 机构名标注 标注的学习 标注的模型 文本的标注 b.结果的输出 例如:“在/p 1998年/t 来临/v 之际/f ,/w 通过/p [中央/n 人民/n 广播/vn 电台/n]nt 向/p 全国/n 各族/r 人民/n 致以/v 诚挚/a 的/u 问候/vn 和/c 良好/a 的/u 祝愿/vn !/w” 通过标注后就变为:“在/Z 1998年/Z 来临/Z 之际/Z ,/Z 通过/A 中央/I 人民/I 广播/C 电台/D 向/Z 全国/Z 各族/Z 人民/Z 致以/Z 诚挚/Z 的/Z 问候/Z 和/Z 良好/Z 的/Z 祝愿/Z !/Z”。 参考文献 【1】张小衡,王玲玲。 中文机构名称的识别与分析[N]. 中文信息学报, 1997,第l1卷第4期. 【2】肖建国. 试论文本挖掘及其应用[R]。2008 (4) 【3】王达,张坤。隐马尔可夫模型在命名实体中的应用[J]。科学信息。 【4】罗智勇,宋柔。 现代汉语自动分词中专名的一体化、快速识别方法。2001国际中文电脑学术会议论文集。p323—p328

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服