收藏 分销(赏)

短信查询宾馆系统论文.doc

上传人:仙人****88 文档编号:6649638 上传时间:2024-12-19 格式:DOC 页数:33 大小:310.50KB
下载 相关 举报
短信查询宾馆系统论文.doc_第1页
第1页 / 共33页
短信查询宾馆系统论文.doc_第2页
第2页 / 共33页
短信查询宾馆系统论文.doc_第3页
第3页 / 共33页
短信查询宾馆系统论文.doc_第4页
第4页 / 共33页
短信查询宾馆系统论文.doc_第5页
第5页 / 共33页
点击查看更多>>
资源描述

1、 短信查询宾馆系统(自然语言分析部分)院(系):计算机学院专 业:计算机科学与技术班 级:1401105学 号:20013011193姓 名:张学龙指导教师:黄河 2005年6月沈阳航空工业学院毕业设计论文摘 要本文介绍了一个短信查询宾馆系统的自然语言分析部分,该系统的主要功能是从短信平台接受短信内容,将短信中关于宾馆的重要信息提出,将主要信息传给网络搜索部分。主要提取的信息有:宾馆所在市、宾馆的上价、宾馆的下价、入住时间、离开时间、宾馆的星级。自然语言分析这部分在大体上分为分词、语义分析两个模块。分词模块使用提供的源程序,将短信分成单词流。语义分析模块可以在分词的基础上从单词流中提取所需要的

2、重要信息。主要采用对基本词识别和对必须处理词进行处理相结合的解决方法。在分词和语义分析之间有单词规范性转化部分,在语义分析模块和网络搜索部分有合法性检查部分,使系统衔接的更融洽。该系统采用JAVA语言,Mysql 数据库工具关键字:自然语言、分词、语义分析、提取 AbstractThe thesis introduces natural language analysis of short message research system for hotel information. The systems mainly function are receiving message conten

3、ts on the message plat, extracting important information related to hotel, and then passing it over to internet search module.The main extracted information includes the city where the hotel is located, the upper and bottom charge limit, register time, checkout time, hotel level and so forth. The na

4、tural language analysis module can be divided into words recognize and semantic analysis. Word recognizing module is achieved by the code supplied by , which can divide message into words stream. Semantic analysis module can extract the necessary information from the words stream, through the combin

5、ation of basic words recognize and handling of them. Between the words recognize and semantic analysis there is specification translation, which checks the validation to harmonize the communication between semantic analysis module and internet search.The system is developed in Java Language, Mysql a

6、s backup database.Key word: natural language, words recognize, semantic analysis, extract- 29 - 沈阳航空工业学院毕业设计论文 目录目 录第一章 前言11.1 项目背景11.2 项目内容及要求31.3 项目特点及意义4第二章 设计思想52.1 功能需求与分析52.2 安全性分析62.3 方案论证62.4 系统设计工具92.5 技术经济分析10第三章 数据库设计113.1数据库需求分析:113.2数据库概念结构设计12第四章 系统设计154.1 系统功能分析154.2 系统结构设计164.3各模块设计图

7、174.4系统详细设计18第五章 系统的调试23体会27致谢28参考文献29 沈阳航空工业学院毕业设计论文 第一章 前言第一章 前言1.1 项目背景 随着经济的发展,人民生活水平的提高,旅游业也随之发展起来。对于旅游、出差等外出的人来说,宾馆的信息显得格外重要。现在获取宾馆信息的方式还有很多不足之处。建立一个方便有效的查询系统,无疑是给了外出人很大的帮助。同时也存在着很大的商机。为短信查询宾馆系统的建立开创了空间。计算机技术和互联网络的飞速发展把社会的信息化进程推向了一个全新的阶段,信息的传递与交流己经成为整个现代社会生活运作的重要基础,电子可读文本大量涌现并成为网络时代主要的信息载体和人们的

8、生活中不可或缺的一部分。随着信息化时代的来临,自然语言处理技术已逐渐成为一项大众化的迫切需求,计算语言学的研究也越来越受到人们的重视。自然语言分析技术则(natural Language Parsing)一直是计算语言学领域一个基础性的研究课题。大部分自然语言处理系统,包括机器翻译,文本理解,信息的检索与过滤,语音识别与合成,都毫无疑问地会从高质量的分析技术中受益。从科学的观点来看,计算机的自然语言分析过程是对人类语言理解过程的模拟:即根据一定的语言知识,通常是一个由规则、树或图组成的形式文法系统,将输入句子的一维线性结构赋予人类思维解释;从人工智能研究的角度来讲,这是一个基于推理的问题求解过

9、程,分析方法则对应了其推理控制策略。1946年,电子计算机诞生后,就有人提出了使用电子计算机进行机器翻译的想法,希望能用计算机翻译日益剧增的科技资料。1954年,美国乔治敦大学,在IBM公司的协助下,用IBM-701机进行了第一次机器翻译实验,把几个简单的俄语句子翻译成了英语。从此,美苏两国开始了俄-英和英-俄文字的机器翻译研究。进入20实际70年代后,一批采用句法-语义分析技术的自然语言理解系统脱颖而出,在语言分析的深度和难度方面都比早期的系统有了长足的进步。这期间具有代表性的系统主要有美国BBN公司的W.Woods于1972年负责设计的LUNAR;美国麻省理工学院的T.Winograd博士

10、于1972年研制的SHRDLU以及斯坦福大学的R.Schank于1973年研制的MARGIE等系统。其中,LUNAR是一个用来协助地质学家查找、比较和评价啊波罗-11飞船带回的月球岩石和土壤的化学分析数据的系统,该系统第一个实现了用普通英语与计算机对话的人-机接口。SHRDLU是一个在“积木世界“中进行英语对话的自然语言理解系统,系统模拟一个能操作桌子上一些积木的机器人手臂,用户通过于计算机对话,命令机器人操作积木块,例如,让它拿起、放下某个积木等。MARGIE是R.Schank根据概念从属理论建成的一个心理学模型,目的是研究自然语言理解的过程。进入20世纪80年代后,自然语言理解的最大的特点

11、就是实用化和工程化,一大批商品化的自然语言人-机接口系统和机器翻译系统出现在市场上。自然语言处理在理论、方法和工具上都有了新的发展,人们更强调知识在自然语言理解中的重要作用。然而,虽然从自然语言理解的发展历史来看,30年来的主流技术一直是句法-语义分析,所采取的主要研究方法是基于规则的方法,但使用这种方法几乎不可能表达理解自然语言所需的各种知识。解决这些问题,利用大规模的真实文本来研究自然语言理解的方法被提了出来。这种方法就是试图从大规模真实文本的预料库中获取语言知识,以求得对自然语言规律的更为客观的、准确的认识。然而,处理大规模真实文本的目标与只处理受限语言的目标大相径庭。目标的不同必然导致

12、观念的变化,人们要寻求处理大规模真实文本的新方法和新技术。1990年8月,在芬兰赫尔辛基召开的第13届国际计算机语言学大会(COLING90)上,首次提出了处理大规模真实文本的战略目标。它认为语言学知识来自于语料,人们只有从大规模语料库中获取理解语言的知识,才能真正实现对语言的理解。从语料库中获取知识的方法是统计方法。这种方法有希望在工程上、在宽广的语言覆盖面上解决大规模真实文本处理这一极其艰巨的课题,至少也能对基于规则的自然语言处理系统提供的一种强有力的补充机制。20世纪80年代初,里奇和加塞特设计的词性标注系统CLAWS(Constituent -Linkelihood Automatic

13、 Word-tagging System),采用的方法是基于大规模语料库的统计方法。利用这一系统对英国语料库LOB进行标注,准确率高达96%。这充分说明基于语料库的统计方法是行之有效的方法。尽管语料库语言学是一种行之有效的方法,但由于它诞生的时间还不长,基于语料库的自然语言理解方法还不成熟,尚需进一步的深入研究,然而,它却是一个应引起重视的研究方向。1.2 项目内容及要求本次毕设题目:短信查询宾馆系统(自然语言分析部分)(一)、题目介绍:短信宾馆查询系统,是由人发出短信,由计算机处理人的要求,再将结果返回给用户。系统共分三部分:短信平台部分、自然语言分析部分、网上搜索部分。系统流程是:从短信平

14、台获得用户的手机号码和短信内容。在语言分析部分中进行短信语言分析。将分析出的内容再传给网上搜索部分,在搜索出信息后将结果返回短信平台部分。短信平台根据手机号码将查询结果返回用户,实现短信查询宾馆功能。由于系统被分成了三部分,所以各部分要有良好的接口,还要在三部分完成时,编写程序将各部分整合。系统要对用户要求处理,首先必须理解用户的意思。从自然语言文本中抽取出能够代表信息的关键词是这部分的首要目标。这部分所需的信息是:手机号码、短信内容。我们要从短信中理解出下列信息:宾馆所在市,价钱要求(价钱上价、价钱下价),星级要求,入住时间,离开时间等。这部分还要根据各部分接口情况对系统的三个不同部分进行整

15、合。由于短信本身的时施性差,所以系统的效率一定要高。为了系统各部分设计的并行进行,这部分可以暂时从文件中获得用户短信信息,处理完毕后将抽取的信息暂时存在文件中。(二)、题目要求:1、数据库用MY SQL,使用JAVA语言,对关于宾馆的自然语言进行分析。2、用软件工程的方法进行设计。3、系统的效率要高(整个系统的运行时间应不超过3分钟)4、不能对用户限定输入格式,要对任意格式的语言进行识别。5、提供良好的接口。6、实现和用户的交互过程。7、对多用户同时访问的情况做处理,保证各用户的查询过程是并行进行的。8、要做技术经济分析。9、交出完整的毕业设计说明书。1.3 项目特点及意义随着经济的发展,旅游

16、业也随之发展起来。关于旅游业的服务表现出了很大的商机。现在手机已经在渐渐的普及,发短信也是多数有手机人共同的习惯。因为短信比较方便,更重要的是短信在经济上可以让更多人接受。可以用方便、经济的方式来获得想要的信息。用手机短信来为旅游业服务,是很多人看好的项目。短信的方便性和经济性使这类项目存在着无限商机。对于利用短信来查询宾馆这个项目,目前还没有一个类似的系统正式使用。现在存在的查询方式,如:电话查询、电脑网络查询等,或者经济性上或者方便性上都有些不足,不被大多数人所接受,目前正等待一种更好的解决方法的出现。利用短信来查询宾馆信息将会被大众所接受。这就是本系统开发的必要性。这部分利用JAVA语言

17、实现了对自然语言的分析,有着良好的平台无关性、可移植性。它不但适用于宾馆的查询系统,还适用于其它需要提取时间、价钱等信息的系统,有着有较强的实用性。这部分也为系统的再次开发作了铺垫。系统主要有以下几个特点:给使用者很大的方便。使使用者在经济上受惠。和用户有者良好的交互。系统运行迅速,查找方便,可靠性高。对宾馆有着更加实施准确的信息提供。操作简单快捷。良好的平台无关性。标准的接口,可移植性强。模块化的软件结构子系统可以单独运行。 沈阳航空工业学院毕业设计论文 第二章 设计思想第二章 设计思想2.1 功能需求与分析根据系统的要求,这部分要接受手机号码和短信内容,从短信中理解出下列信息:宾馆所在市,

18、价钱要求(价钱上价、价钱下价),星级要求,入住时间,离开时间。自然语言虽然表示成一连串的文字符号或者一串声音流,但其内部事实上是一个层次化的结构,从自然语言的构成中就可以清楚地看到这种层次性。一个用文字表达的句子的层次是:语素 词或词形 词组或句子其中每个层次都要受到语法规则的制约。因此,自然语言的分析和理解过程也应当是一个层次化的过程。许多现代语言家把这一过程分为: 词法分析 句法分析 语义分析虽然这种层次之间并非是完全隔离的,但是这种层次化的划分有助于更好地体现语言本身的构成。 本系统是对关于宾馆查询语言的识别,所涉及的词汇有限,并且短信的内容很少。可以不必进行句法分析,直接根据词的语义进

19、行不同的处理,即简单的语义处理。简单的语义处理可使用信息提取技术。自然语言分析过程:从文档中读取短信 将自然语言分词 对单词串进行语意识别 提取所需信息保存到文档中系统在物理上可以分成:自然语言分词模块、语义识别模块。语义识别模块可分为:宾馆所在市提取、时间提取、价钱提取、星级提取、合法性信息检查等部分。每部分在结构上可分为:基本词语识别和特殊词语识别两部分自然语言分词模块:从短信平台接受用户的手机号码和短信内容,将用户发来短信信息分成合法的单词流,连同手机号码一同传给语义识别模块。对单词串进行语义识别: 从自然语言分词模块得到短信的单词流和手机号码,对单词进行不同的处理提出短信中的主要信息如

20、:宾馆所在市、时间、价钱、星级等信息。将提出的主要信息进行合法性检查和全面性检查。 宾馆所在市提取:对单词流进行全面的检查,查看单词流中是否有宾馆所在市的信息。如果有将其提出,没有则向用户返回询问宾馆所在市的信息。时间提取:对单词流进行检查,查找出用户的开始入住时间,如果有将其提出,没有则向用户返回询问宾馆开始时间的信息。同时也找出离开时间,但如没有并不向用户返回询问信息。这个部分要进行基本词语识别和特殊词语识别,这样才能完全提出时间信息。价钱提取:对单词流进行检查,查找出用户的价钱标准,如果有将其提出,没有则向用户返回询问宾馆开始时间的信息。这里的标准可以是一个范围也可以是一个上价或下价。这

21、个部分也要进行基本词语识别和特殊词语识别,这样才能完全提出价钱信息。星级提取:对单词流进行检查,查找出用户的星级标准,如果有将其提出,但如没有并不向用户返回询问信息。2.2 安全性分析由于本部分是对自然语言进行分析,主要任务是将短信中的主要信息提取出,传给下一个模块。所以在安全性上没有特别的设置。2.3 方案论证系统共分成两个大的模块:语言分词模块、语义识别模块。分别对其解决便可完成对关于宾馆查询语言的识别工作。对各模块解决方法的讨论,可以选出最好的解决方法,有助于问题的解决。2.3.1自然语言分词 分词概念:中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词

22、,哪些不是词,但如何让计算机也能理解?其处理过程就是分词。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。1、基于字符串匹配的分词方法:这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:1)正向最大

23、匹配法(由左到右的方向);2)逆向最大匹配法(由右到左的方向);3)最少切分(使每一句中切出的词数最小)。还可以将上述各种方法相互组合,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。一种方法是改进扫描方式,称为

24、特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。2、基于理解的分词方法 这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语

25、义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。 3、基于统计的分词方法从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可

26、认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。在众多的分词方法中,基于字符串匹配的分词方法相对比较简单,对于我们的这个简单的语言识别非常适用。但由于字符串匹配的分词方法的错

27、误率相对较高,所以我们想将这种算法将基于统计的分词方法相结合。即我们可以先建立一个词库,词库中的词有着其使用频率(当然为语义分析做准备,每个词要有其词性)。当进行字符串匹配时使用最大正向匹配原则进行匹配,在匹配过程中记录起所有能够匹配成功的单词。在这些单词中根据其使用频率来选择用那一个单词来匹配。这样算法即简单又提高了单词识别能力。2.3.2对单词串进行语义识别 因为一个语言分析系统无论多么复杂,都可以看做由两部分组成,即元素表和规则系统。所以现在比较普遍的语义分析方法是:先建立一个规则库,在分词后得到单词流,根据规则库便可以进行语义识别。我们先将字符流进行依次进栈,在进栈的同时用相应的语法规

28、则进行规约。当规约到开始符号表示识别完毕,根据使用的语法规则来确定语义,从中便可提取所要的信息。但我们的系统所要提取的信息比较固定,最多须提取:市,区,价钱,星级,什么样的房间,下住时间,住的天数。所以我们没有必要建立规则库,可以利用语言分析技术进行识别。我们这个部分类似信息提取系统,目的在于获取指定的信息,因而往往不需要进行完整的语言分析和理解。其分析过程通常可称作是“浅层的”或“部分的”语言分析(只分析所需要的部分),即找出代表指定信息的词汇、短语等块状语言结构,而不是去弄清楚每一语句的句法结构树。在语法分析阶段的一个主要问题是代表信息所包含的事件、消息或事实的有关名词性短语和动词性短语的

29、识别问题。对文本的语义理解在于发现指定信息所涉及的各项内容,解决句间成分传递、指代与引用情况等问题。市的识别可以先在数据库建立一个表,表中存放全国的各市名称,再进行对数据库的比较查询识别.价钱、星级、时间等信息可以用前后的词来推断。首先对单词流进行第一遍扫描,任务是用数据库中的数据提取出市的信息。第二遍扫描,任务是找出单词流中的所有数字信息并作相应的标记。第三遍扫描,在数字信息后面找两个单词同数据库中标志词表相比较,看是否能识别数字信息的性质。如不能识别再找数字信息的前面两个单词进行同样比较,再不能识别则放弃。在这三遍的比较中将提出的信息和使用过的词做上不同的标记以备后用。在第四遍的扫描中将没

30、有标记的单词和数据库中必须特殊处理的词表相比较。进行不同的处理,如:对离开时间的计算、价钱范围的识别等。四遍扫描后便将所需信息提取出。也可将二、三、四遍扫描合并到一起同时进行。对一个单词先进行数字判断,再同特殊处理词表相比较。这样可改为二次扫描,执行结果同四遍扫描是一样的。完成上面的工作后,将提出的不同信息命名,一同存入文档中。2.4 系统设计工具系统开发工具如下:1.操作系统::Microsoft WindowsXP3. 数据库:开发过程中数据库工具采用了 MY SQL,这个数据库工具是个相对小型的数据库工具,有着方便、灵活等特性。对于我们这个小型的自然语言分析系统非常适合。4.编码工具:语

31、言的选用对系统来说是非常重要的,因为它关系到功能的实现,和程序的性能。这部分采用JAVA 语言。如今JAVA语言越来越受众人好评,而且还在迅猛的发展。JAVA具有着简单性、网络特性、平台无关性、可移植性、鲁棒性等优点,这些特性为编程提供了很大的方便。5.开发环境:editplus 是可以对多种语言编译的编程语言,可以对JAVA语言进行编译。相对其他JAVA语言编译环境来说这个环境比较简单,但正是因为这点比较简单方便,比较容易操作,对于JAVA语言的了解学习也是有一定好处的。在editplus中调用Java 2 SDK, SE v1.4.2.msi 中的各种执行命令,从而实现对JAVA语言的编译

32、。 2.5 技术经济分析技术经济分析是研究技术领域的经济问题和经济规律的科学,是研究一定技术条件下如何提高经济效果的科学,是技术与经济的交叉。其主要研究技术的经济效果问题,技术与经济的最佳组合问题。对于整个系统来说,予估计由一个人独立开发,用时一年左右,所需成本费用主要为人工费用,再加上计算机和软件等构成该系统的开发成本。经济上的合理性:在系统开发上,普通计算机的约折人民币4000元左右,操作系统是Windows XP,加上Microsoft Office其正版软件也不过5000元。开发人员1名(假设月薪2000),开发本软件如果是网络开发的技术人员最多三个月,假如个人技术花费是3000元,开

33、发费用合计大概是2万元左右,且计算机和软件可重复使用。实际消耗资本不足15000元。而现在的WEB系统开发,如果是大型的电子商务网站,或企业商业网,一般的投资都是几十万。所以自行开发系统,既节省了费用,又可以使本软件符合我们自己的要求并拥有源代码,使以后的操作和修改都有很大的灵活性。综上所述,本系统的自行开发有很多优点,亦可节省大量资金。而且这个项目有着其独特性,定能受到大众的欢迎。这个项目存在着很大的商业前景。但从我们的实际出发,我们的时间有限,在这短短的三个月内完成所有的功能设计,并且完成后面的代码编程,是不合实际的。对自然语言分析部分完成全部编码也是不可能的。分词词库的建立对于我们现在的

34、情况是不可能的。所以我们决定寻找网络资源来解决这个问题,采用网上的分词程序。 沈阳航空工业学院毕业设计论文 第三章 数据库设计第三章 数据库设计数据库在一个自然语言分析中占有非常重要的地位,数据库结构设计的好坏将直接对分析系统的效率以及实现的效果产生影响。合理的数据库结构设计可以提高系统效率和准确率并且可以提高数据存储效率,保证数据库的完整性和一致性。同时,合理的数据库结构也将有利于程序的实现。3.1数据库需求分析:本系统采用MY SQL数据库。在仔细分析调研基础上,得到本系统所要处理的数据结构。根据系统需求可以列出以下数据项和数据结构:1、城市:包括城市名。2、标志词(用来存单位等词,对纯数

35、字的含义的判断):标志性词、做不同操作的代表数字等。3、特殊处理词(用来存必需做特殊处理的词):特殊词、做不同操作的代表数字等。4、数值单位(用来为数值计算提供数值上的单位):单位、代表不同单位的数值等。5、标示计算词(用来存需做计算性的标示词):标示词、做不同计算的代表数字等。6、用户交互内容(用来存当用户给的信息不全或错误时,返回给用户的内容):内容编号、返回的内容。本系统设计过程中主要遵循以下几点:1、程序设计的便利性2、系统性能的完备性3、系统运行的高效性4、全局数据的一致性5、数据关联的完整性 6、运行结果的准确性3.2数据库概念结构设计概念结构设计是将需求分析得到的用户需求抽象为信

36、息结构即概念模型的过程。自然语言分析部分对于表的结构要求很简单。每一个表的结构都由一个单词或句子对应一个数字。单词或句子用数字来表示其要进行的操作。在程序中使用数字来代表这个单词或句子,实现对这个词或句子的理解。下面对自然语言分析部分进行结构设计:在MY SQL中建数据库名称为:mydatabase。对应的各表结构如下:表名:city (城市):字段名类型city char表名:sign (用来存标志词,对纯数字的含义的判断)字段名 类型unit (标志词) charfield (操作的数字表示) intfield 数值表示的含义: 10 :表示价钱 20 :表示开始时间 30 :表示结束时间

37、 40 :表示整体时间 50 :表示星级 90 :表示地点 110 :表示年 120 :表示月 130 :表示日 140 ;表示星期 200 :表示无用信息 600 :表示住多长时间 610 :表示住几天表名:especial (用来必须特殊处理的词)字段名类型idiom(特殊处理的词) charmeans(操作的数字表示)intmeans数值表示的含义: 510 :表示要向下读取一个数词和一个单位 (存在caxun中)初值为1 500 :表示要向下读取一个数词和一个单位 (存在caxun中),初值1,不用。520 :要处理天、日的词 520 表示今天 521 表示明天 522 表示后523

38、表示大后天 530 :要处理月的词 530 表示本月 531 表示下月 540 :要处理年的词 540 表示今年 541 表示明年 542 表示后年 543 表示大后年 550 :要处理星期 551表示下星期 560 :表示要向下读取一个数词和一个单位 (存在caxun中)初值为0 570 :表示要处理 下星期几到“星期几(除一、日)” 580 :表示要处理 下星期几到“星期一(、日)”581 星期一 582 星期二、587 星期日 710 :表示要处理形容价钱的“高档” 720 :表示要处理形容价钱的“中档” 730 :表示要处理形容价钱的“低档” 740 :表示要处理形容价钱的“以上” 7

39、50 :表示要处理形容价钱的“以下” 760 :表示要处理形容价钱的“左右” 770 :表示要处理“不限”表名:caxun (用来存单位)字段名类型name (单位名) charzhi (单位的数值) intzhi数值表示的含义: 110 :做年的相应处理 120 :做月的相应处理130 :做日的相应处理140 ;做星期的相应处理表名:zhutian (用来存计算性的标示词)字段名类型name(标示词) charxingzhi (计算的代表数) intxingzhi数值表示的含义: 560 :表示做“住几天”的处理表名:fanhui (存返回用户的错误提示信息) 字段名 类型 hao(内容编号

40、) char neirong(返回的内容) textneirong表示的含义: 0001:询问宾馆所在市的信息。0010:询问宾馆所在市的信息。0100:询问开始时间的信息。1000:所要详细信息的编号错误的提示信息。0101:询问宾馆所在市的信息和询问开始时间的信息。0011:询问宾馆所在市的信息和询问宾馆价位的信息。0110:询问宾馆价位的信息和询问开始时间的信息。0111:询问宾馆所在市的信息和询问宾馆所在市的信息和询问开始时间的信息2000:对空信息的询问和使用帮助。到此,系统的全部数据库的表结构设计已经全部列出,在下面的系统设计的章节里,将全面介绍程序是如何对各表进行操作并完成系统各

41、种功能的。 沈阳航空工业学院毕业设计论文 第四章 系统设计第四章 系统设计系统设计又称系统物理设计。它根据系统分析报告中的系统逻辑模型综合考虑各种约束,利用一切可利用的技术手段和方法进行具体设计,确定系统的实施方案,解决系统怎么做的问题。在充分了解系统要求基础上,对系统的功能进行细致的分析,并建立一个系统的逻辑模型。4.1 系统功能分析从功能上来讲,本系统的功能就是从短信平台接受短信经过语言分析将短信中的主要信息提取出交给网络搜索部分。经过进一步对功能实现上的分析,从工程的角度讲,本系统主要需要完成以下几个功能:短信内容分词:这部分采用网上的分词程序来将短信内容分成单词流。单词规范性转化:因为

42、网上的分词程序对我们的语义分析部分有一定的差异,既分词程序对有些词的分法同语义分析需要的分法有些不同,所以要对分词的结果进行规范化转化。宾馆所在市提取:对单词流进行全面的检查,查看单词流中是否有宾馆所在市的信息。如果有将其提出,没有则作上缺少的标记。时间提取:对单词流进行检查,查找出用户的开始入住时间,如果有将其提出,没有则作上缺少的标记。同时也找出离开时间。价钱提取:对单词流进行检查,查找出用户的价钱标准,如果有将其提出,没有则作上缺少的标记。这里的标准可以是一个范围也可以是一个上价或下价。星级提取:对单词流进行检查,查找出用户的星级标准,如果有将其提出,如没有作上缺少的标记。合法性检查:对

43、时间、价钱等的上限和下限进行检查,因为下限一定要小于等于上限。当星级大于五时,这样的星级也是不存在的,要对其做相应的处理。当短信信息中所在市、开始时间、价钱等信息缺少时要向用户返回询问信息。当信息足够时再向网络查询部分提交。4.2 系统结构设计根据系统的功能分析,我们要在分词模块和语义分析模块之间加入单词规范性转化,使分词和语义分析之间更好的连接。在将提取的主要的信息交给网络搜索部分时,要进行一下合法性检查,将市、时间、价钱信息不全的短信信息不交给网络搜索,在本部分进行处理。使接口更加标准化,有助于自然语言分析和网络搜索两部分的连接。这时系统的结构如下图所示: 网络搜索部分 短信平台部分短信内

44、容 自然语言分词模块规范单词流自然语言语义分析主要信息单词流 单词规范性转化 合法性检查标准信息4.3各模块设计图 单词规范性转化: 将不应该分开的词再次组合单词流组合处理的词将单词内的数据为一种形式规范单词流自然语言语义分析:规范单词流连接数据库规范单词流 单词内容的判断纯数字单词数字+汉字单词特殊处理单词将单词同数据库比较提出宾馆所在市的信息并标记规范单词流无须处理单词对纯数字的性质进行判断并进行标记根据单词中汉字对数字的性质进行判断并标记对必须处理的特殊词根据其含义进行处理并标记直接将其略过,不做任何处理合法性检查:主要信息对价钱的标准性转换主要信息对时间的标准性转换主要信息对星级的标准性转换

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 学术论文 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服