收藏 分销(赏)

短信宾馆查询系统论文.doc

上传人:仙人****88 文档编号:9377657 上传时间:2025-03-24 格式:DOC 页数:34 大小:279KB
下载 相关 举报
短信宾馆查询系统论文.doc_第1页
第1页 / 共34页
短信宾馆查询系统论文.doc_第2页
第2页 / 共34页
点击查看更多>>
资源描述
沈阳航空工业学院学士学位论文 Abstract 短信宾馆查询系统 院(系):计算机学院 专 业:计算机科学与技术 班 级:1401102 学 号:20013011058 姓 名:钱 勇 刚 指导教师:黄 河 2005年6月 I 沈阳航空工业学院学士学位论文 摘要 摘 要 短信宾馆查询系统是一个基于手机短信息服务平台,通过短信息平台接收用户信息,再利用网络资源,在网络上索取一些用户要求的信息,最后通过手机短信息服务平台把这些消息反馈给用户。还能和用户进行进一步的交互。 短信宾馆查询系统主要的功能有:接收用户的短信、发送短信、自然语言的分析、网上资源的搜索等。关于自然语言分析部分要从用户发出的短信中提取所要的信息。要求不能对用户进行格式限制,但要对酒店查询的所有语言进行识别。为了突出本系统是借助网络资源,所以在进行消息搜索是不能利用现成数据库,只能利用网上资源。搜索到的信息存入本地数据库中,要保证数据库中存的宾馆资料是最新、最可靠的。 本系统利用Java语言编写和处理数据。短信平台的数据库采用SQL 2000,自然语言分析和网络搜索的数据库采用MYSQL。整个系统有较好的稳定性和可靠性,功能完善,界面友好,方便用户操作。 关键词: 短信宾馆查询 JAVA MYSQL 自然语言分析 短信平台 网络搜索 沈阳航空工业学院学士学位论文 Abstract Abstract The SMS System for Hotel Searching is according to cellular phone SMS service terrace, passing the SMS terrace receiving customer information, then making use of network resources, on the network obtaining some customer request. Finally thought the SMS terrace give the information to the customer. The system can still proceed to further hand over with the customer with each other. The SMS System for Hotel Searching searches its main function has: Receiving the SMS from the customer, send out the SMS, the analysis of natural language, searching information on the net etc. As for natural language analyze the part want to find useful information from the customer which id passed by the SMS terrace. The request can't proceed the format restrict to the customer, but want all languages to search to wine shop proceed to identify. For the sake of the outstanding a system is to ask for help the network resources. So the information manhunt is to can't make use of the ready-made database, can make use of net top resources. The information that search for deposits the native database inside, guarantee the data of the guest house saved in the database is latest and the most dependable. This system makes use of the Java language plait writes with handles data. The database adoption SQL 2000 of the SMS terrace, the natural language analysis adopts the MYSQL with the database .Whole system contain good stability with dependable, the function is perfect, interface amity, convenient customer operation. (英文摘要需要修改一下) Key words java, SQL 200, MYSQL, Net Searching, SMS, the analysis of natural language 沈阳航空工业学院学士学位论文 目 录 目 录 摘 要 I ABSTRACT II 第1章 引 言 1 1.1 题目背景 1 1.2 课题任务 2 1.3 系统设计目标 2 第2章 需求分析论证 4 2.1 需求分析 4 2.2 总体设计思路 5 2.2.1 软件设计思路 5 2.2.2 数据库设计思路 5 2.3 开发工具论述 6 2.3.1 JAVA语言的简介 6 2.3.2 前台开发工具 6 2.3.3 后台数据库 6 2.4 分析程序可行性 7 2.4.1 技术可行性 7 2.4.2 操作可行性 9 第3章 结构特性设计 10 3.1 系统分析模型 10 3.2 数据库设计 12 第4章 行为特性设计 15 4.1 软件结构设计 15 4.2 功能子模块设计 16 4.2.1 短信平台子模块 16 4.2.2 自然语言分析子模块 17 4.2.3 网络搜索子模块 21 第5章 系统运行与调试 25 5.1 系统测试方案 25 5.2 测试结果分析与调试 26 结 束 语 29 致 谢 30 参考文献 31 沈阳航空工业学院学士学位论文 第1章 引 言 第1章 引 言 1.1 题目背景 随着我国经济的飞速发展和信息时代的到来,手机已经成为人们生活中不可缺少的通信工具,也越来越受人们的欢迎。手机也已不再仅仅被当作一种通信工具,现在的手机技术已经使手机几乎成为个人掌上电脑。所以必须开发适应人们工作生活的各种手机应用软件,以适应广大手机用户的需求。利用手机来获取一些资料是非常方便,非常迅速的。目前,手机的功能越来越满足不了人们的要求。短信作为手机功能的一个重要环节,有着自己独特的魅力,自然是不为人们所忽视。再加上短信的费用远远小于打电话所用的费用,因此短信也越来越受欢迎。很多人已经用短信来代替电话和人交流了。随着短信技术的成熟,一些新的短信服务也日益增多。目前,短信已逐渐成为一种时尚。现在几乎每个有手机的人一天都会发几条。有着这样一个庞大的消费群体,如何提供适应这些人群的对短信功能的需求,增强短信功能服务,将给运行商们带来无限的商机。 我国的旅游事业也在蓬勃发展,旅客寻找宾馆难的问题也日益的暴露。许多旅客由于不能及时地得到宾馆的信息(是否有空的房间等),给他们的旅游带来了很大的麻烦。特别在旅游黄金周的时候,如何以最便捷、最迅速的方法获得宾馆最新的信息对旅客来说是非常重要的。不仅对旅游者很重要,对常出差的工作人员及时的掌握第一线的宾馆消息资料也是非常重要的。 虽然现在存在着比较完善的宾馆查询系统,但就其方便性、经济性,实用性上考虑有一定限制,再加上缺乏人性化的设计(无法识别我们日常的谈话)。利用低廉的短信为旅游事业服务,无疑存在着很大的商业潜力。我国在这方面起步比较落后,所以短信宾馆查询系统具有很大的商业前景和价值。 1.2 课题任务 短信宾馆查询系统是基于手机短信息服务平台,通过短信息平台接收用户信息,再利用网络资源,在网络上索取一些用户要求的信息,最后通过手机短信息服务平台把这些消息反馈给用户。 短信宾馆查询其主要的功能有: Ø 接收用户的短信; Ø 发送短信; Ø 自然语言的分析; Ø 网上资源的搜索; Ø 数据库维护等; Ø 与用户交互系统。 本系统利用Java语言编写和处理数据。短信平台的后台数据库采用SQL Server 2000,自然语言分析和网络搜索的后台数据库采用MYSQL。整个系统有较好的稳定性和可靠性,功能完善,界面友好,方便用户操作。 1.3 系统设计目标 本系统设计目标是:设计出达到项目设计内容和设计要求、实用性强的短信宾馆查询系统。针对以上内容提出的设计要求是: Ø 界面友好; Ø 使代码尽可能的高效; Ø 功能完备、数据准确; Ø 系统要尽量具有通用性; Ø 系统要尽量稳定和可靠; Ø 操作方便、简单,易于上手; Ø 要有与用户的交互日志; Ø 为用户提供良好的回复时间。 在数据库创建设计时,所需要达到的基本设计目标是: Ø 消除冗余数据; Ø 迅速的定位单个纪录; Ø 容易的实现数据库增强; Ø 数据库易于维护; Ø 不定时地对数据库进行备份。 -30- 沈阳航空工业学院学士学位论文 第2章 需求分析论证 第2章 需求分析论证 2.1 需求分析 通过调研得出了以下得结论(调研地点:北京航空航天大学) 1.大多数的同学和教师都认为:虽然现在存在着比较完善的宾馆查询系统,但就在以下几个方面有不足之处:(格式要重新排版) 1) 方便性方面考虑 目前我们的宾馆查询系统有很多,大多数都时基于网络的,也就时说用户要使用宾馆查询系统的时候必须要上网,这给一些不会使用计算机的人造成了很大的不便。即使会上网也要受到很多条件的束缚,必须使用能上网的电脑。总之不方便。 2) 经济性方面考虑 要得到宾馆的住宿资料大多数人还是选择打电话询问,电话的费用是很贵的,还有可能要询问多处才能得到一个满意的宾馆。加上不一定有宾馆电话号码,这给我们(句子没有完) 3) 现在宾馆查询系统人性化的设计方面做的比较的差,大多数的系统都是要选择几个关键的词,而对人们的自然语言缺乏分析。 2.根据用户的需求和调研情况分析系统应具备以下功能: 1) 有一定的自然语言的分析 2) 与用户交互简单 3) 系统功能应实用完善、操作方便快捷。 4) 系统提供的宾馆资料真实、可靠 总之,手机已经成为人们生活中不可缺少的通信工具,利用低廉的短信为旅客和出差者提供服务,无疑存在着很大的市场。也会被宾馆管理人士所青睐。将会给他们带来无限的商机。所以短信宾馆查询系统具有很大的商业前景和市场价值。 2.2 总体设计思路 2.2.1 软件设计思路 短信宾馆查询系统,可以将它分为3个基本的模块: Ø 短信平台模块 其任务是:接收用户的短信,再将结果返回给用户。 Ø 自然语言分析模块 系统要对用户的要求(既短消息内容)进行处理。首先必须理解用户的意思。即从自然语言文本中抽取出能够代表信息的关键词是这部分的首要目标。从短信中理解出下列信息:宾馆所在市,所在区,价钱要求,星级要求,什么样的房间(如单人间,双人间),下住时间,要住的天数等。再将这些信息存入当前用户的数据库。 Ø 网上搜索资料模块 其主要实现的功能是:在网上搜索用户所需要入住的宾馆的消息。不借助于自己所建立的数据库,充分利用网络所提供的资源,实现在网上抓取所要的信息。实现查找资料的自动化,尽可能的多找用户相关的资料。 2.2.2 数据库设计思路 对于需要使用数据库的那些应用领域。先对系统数据的要求进行分析,再进一步设计数据库,主要的数据库表有,记录用户的基本信息表、从用户要求中提取出来的信息的表、宾馆资料存放的表(记录当前从网络上搜索出来的宾馆信息存入数据库中,但要确保此信息是最新的)、返回给用户的信息表和一些自然语言分析时用的表。 在设计中,要注意数据存储的物理和逻辑设计。本系统在数据库设计中遵循下列原则: Ø 定位特定的纪录时,能提供最短的搜索时间,迅速的搜索目标。 Ø 为防止数据库过于庞大,要用最有效的方式存储数据。 Ø 使更新数据尽可能的简单。 Ø 程序中新功能的添加是否灵活。 Ø 数据冗余要尽量的避免,除了特殊原因外。 2.3 开发工具论述 2.3.1 JAVA语言的简介 JAVA是一种计算机程序语言,用JAVA既可以编写嵌入在WEB网页中运行的JAVA Applet小程序,也可以编写独立运行的JAVA Application。JAVA是当今十分流行的网络编程语言。 JAVA是Sun公司于20世纪90年代初开发的。最初并不是为了用于Internet,而是作为一种小家用电器的编程语言,时命名为Oak。后来由于Sun公司放弃了该项计划。就再Oak几近夭折之时,Internet异常火暴起来。Sun公司看到了Oak在计算机网络上的广阔应用前景,他们改造Oak,于是JAVA诞生了。 总之,JAVA是非常具有吸引力的面向对象编程语言,又是当前最流行的网络编程语言。JAVA的出现引起了软件开发的变革,为迅速发展的IT业增添了新的活力。(语言介绍的过多) 2.3.2 前台开发工具—— JBuilder简介 本系统用的开发工具是JBuilder,JBuilder是Borland公司的重点产品。JBuilder 9则集成了软件开发、调试、部署、管理等工具,极大地提高了项目开发地速度。受越来越多地开发者青睐。Borland最新推出的Java ALM解决方案,将使Java的开发更加轻松,把java应用开发能力从“大型用户”普及到“企业级开发人员”。与其它软件平台相比,基于J2EE的Borland软件平台在技术方面具有明显优势,不但提高了应用的开发速度,而且通过应用服务器和革新性的“应用服务器分区”数据大规模简化了编程过程。 2.3.3 后台数据库——MYSQL及Microsoft SQL Server数据库简介 MySQL是一多用户,多线程,结构化查询语言数据库服务器。结构化查询语言是目前最流行何标准化的数据库语言,MySQL是一个客户/服务器式结构的系统,其主要是由Server端的MySQL及许多的不同程序开发出来的客户端界面及函数构成。MySQL是一个开放源代码的软件,任何人都可以任意使用它,甚至去研究原始代码,并改变他们以适应自己的需要,这使它变的更快速,更可靠的和更容易使用。MySQL发展至今已经是一套富有弹性和高可靠度的数据库系统,而且快速的网络连通性,稳定性,安全性及成本优势造成MySQL非常适合运用用于快速变化的网络环境。 Microsoft SQL Server的出现仅仅八年左右,但是它已经成为DBMS市场中极具魅力和实力的DBMS,已经可以与任何一个老牌的DBMS相抗衡。关键不仅在于它体现了一种实用而极为有效的计算概念—Client/Server(客户/服务器)计算方式,还在于它所基于的操作系统功能日益强大,另外其赖以为基础的Transact_SQL语言在SQL基本语言上也得到扩展从而使得SQL语言支持的RDB(关系数据库)愈加受到青睐。Microsoft SQL Server的高速、高度安全和稳定性,以及它的高性能价格比,使它成为今天数据库开发的首选。 2.4 分析程序可行性 2.4.1 技术可行性 1. 本系统用的语言是JAVA语言: 目前,JAVA是非常具有吸引力的面向对象编程语言,又是当前最流行的网络编程语言。本系统要用到网络给它提供的资源,自然用JAVA编写是一个明智的选择。 2. 本系统用的开发工具是JBuilder,JBuilder是Borland公司的重点产品: JBuilder 9则集成了软件开发、调试、部署、管理等工具,极大地提高了项目开发地速度。受越来越多地开发者青睐。 3. 至于数据库方面,本系统采用的MYSQL和Microsoft SQL Server 2000数据库都是目前最优秀的数据库。 4. 自然语言处理部分目前存在的解决方法: n 使用特殊格式系统:根据人机对话内容的特点,采用特殊的格式来进行人机对话。该系统的句法分析能力较差,输入句子十分简单,没有连接词,也没有比较级形式的形容词和副词,主要靠一部机器词典来进行单词的识别,所有的问题都采用一种特殊的规范表达式回答。 n 使用以文本为基础的系统:就一个专门领域来说,使用文本信息提取技术对固定范围内的自然语言进行信息提取,使用不受特殊格式结构限制的系统来进行人机对话。 n 使用有限逻辑系统:在这种系统中,自然语言的句子以某种更加形式化的记号来替代,这些记号自成一个有限逻辑系统,可以进行某些推理。 n 方法选择: 如果选择规定用户采用固定输入格式,计算机根据短信信息的位置从中读取所要的各种信息,从而实现对用户信息的理解,对于现在的人性化世界显然是不可取的。从我们的系统本身出发。它是面向宾馆预定的系统,所涉及的自然语言在一定范围内,而且所涉及的语言相对简单,没有必要使用逻辑推理,所以可以使用文本信息提取技术进行对短信信息理解。对自然语言使用信息提取技术识别语义获取自然语言过程:从文档中读取短信,将自然语言分词,对单词串进行语意识别,提取所需信息保存到文档中。 6. 网上搜索资料模块 如今,随着我们的社会进入了信息化,Internet的发展也越来越快。由于网络给我们提供的一个很好的查找资料的地方,而且在网上搜索自己想要的东西是完全可以实现的。网上的资源都是共享的,是丰富多彩的,有的信息是很真实的,可以说你想要找什么东西都能在网上找到。网络上有关宾馆查询、预定的网站也是很多的,只要我们从一些很有知名度的网站上来找那些资源是完全可以信任的,而且是可行的。 n 网上搜索资料模块存在的问题分析: a.不能借助于自己所建立的数据库,只能借助于网络提供的资源。这样就必须在网上去抓取所要的信息。其主要的难点就是要找一个或几个很可靠的网站,在其网站上进行搜取所要的信息。 b.我们要找的网站要符合下面几个条件:可靠性高、消息来源准确、有所要宾馆的联系方式、及时性要好。符合这样的网站是很少的。也就是说我们必须不能只在一个网站上找这些资料,我们必须依赖网络在至少几个网站上搜索。 c.在其他网站上进行搜索时,嵌入他们的网站来搜索有问题。因为很多网站他们的搜索地址不是完全的,有的被隐藏起来了。我们必需在嵌入他们网站,但是我们嵌入时必需有相应搜索地址,即具体的查询语句和他们定的规范。我们要解析那个网址。 d.嵌入他们的网站后,要利用编程把查找到的网页打开,在打开的网页(打开的网页是原代码)后,要在源代码文件里找自己的消息,在这里就要涉及到算法了。 n 网上搜索资料模块现在有的解决方法: 在Internet上有许多网站允许通过网络浏览器进行宾馆的检索,通过填入需查询的城市(地区)、价格、星级、入住日期等资料,即可找到相关的资料: a.E龙旅行网 ( b.24-Hotel (http://www.24- 24-Hotel于2000年3月开始运作,会员数量快速增长,通过Internet进行预订的客户占到90%,其中海外客户约占60%, 包括国内、港澳台、日本、韩国、欧美、及东南亚等地区。 像上面所提的几个网站都是查这些资料的很好地方。 总之,在技术上,系统开发是完全可行的。 2.4.2 操作可行性 系统开发的目的之一就是操作简单,方便快捷。用户只要发条短信,便可以得到符合用户要求的宾馆的最新、最可靠、最详细的资料。用户还可以查询更多的符合查询条件的宾馆。也很好的能和用户进行进一步的交互。 沈阳航空工业学院学士学位论文 第3章 结构特性设计 第3章 结构特性设计 3.1 系统分析模型 概念模型是现实世界到信息世界的第一层抽象,是数据库设计人员进行数据库设计的有力工具,也是数据库设计人员和用户之间进行交流的语言。因此本系统在进行概念模型设计时,一方面应该具有较强的语义表达能力,能够方便、直接地表达应用中的各种语义知识,另一方面它还应该简单、清晰、易于用户理解。根据上面的设计规划出的实体如下:用户实体、宾馆实体和短信实体。 1 n 1 1 1 n 1 n 用户 发 短信 查找 宾馆 分析 用户信息 填写 图 3-1 系统 E-R 图 l 主要实体如下图: 用 户 电话号 图 3-2 用户的实体图 短 信 内容 电话号 图 3-3 短信的实体图 (前后两图之间的关系不明确) 用户信息 手机号 宾馆1 宾馆2 宾馆3 宾馆4 宾馆5 宾馆6 宾馆7 城市 宾馆8 价格 入住时间 离开时间 星级 返回条数 创建时间 城市 价格 入住时间 离开时间 星级 返回条数 创建时间 图 3-4 用户信息表的实体图 宾 馆 简 介 位 置 创建时间 名 字 地 址 电 话 价 格 图 3-5 宾馆的实体图 l 对每个实体定义的属性如下: 用户信息(手机号,城市,价格,入住时间,离开时间,星级,创建时间, 宾馆1,宾馆2,宾馆3,宾馆4,宾馆5,宾馆6,宾馆7,宾馆8,返回条数) 宾馆(简介,名字,地址,电话,价格,位置,创建时间) 短信(电话号,内容) 用户(电话号) l 对图3-1的整体说明: 用户通过手机发短消息给短信平台,短信平台接受后把信息填入实体短信表表中。自然语言分析部分在短信表中取短信,并分析其意思。把分析出来的几个关键词存入用户信息中相应的位置。网络搜索部分再在用户信息表中取搜索时必要的关键词后,根据限定的条件找出宾馆,把宾馆的信息填入宾馆表中。再把查到的宾馆的电话号填入实体用户信息表中的相应的位置。 3.2 数据库设计 按以上的设计步骤和设计原则,设计出药店信息管理系统的后台数据库,各个表的具体情况如下: 1. 用户表 序号 字段名称 类型 长度 可否为空 1 id varchar 16 No 2 city varchar 10 Yes 3 price bigint 10 Yes 4 cometime Datatime 8 Yes 5 gotime Datatime 8 Yes 6 star int 50 Yes 7 creattime datetime 8 no 8 hotel0 varchar 16 Yes 9 Hotel1 varchar 16 Yes 10 Hotel2 varchar 16 Yes 11 Hotel3 varchar 16 Yes 12 Hotel4 varchar 16 Yes 13 Hotel5 varchar 16 Yes 14 Hotel6 varchar 16 Yes 15 Hotel7 varchar 16 Yes 16 returnnow int 4 Yes 表3-1 用户表 说明: a. 主键为“id”,用来唯一标识系统用户 b. 该表主要是用来储存用户的基本信息,记录用户请求的关键字,以及搜索到的宾馆的结果。 2. 宾馆表 序号 字段名称 类型 长度 可否为空 1 information varchar 16 Yes 2 name varchar 10 Yes 3 address varchar 10 Yes 4 tel varchar 2 No 5 price varchar 8 Yes 6 location varchar 50 Yes 7 creattime datetime 11 No 表3-2 宾馆用户表 说明: a. 主键为“tel”,用来唯一标识宾馆 b. 该表主要是用来储存宾馆的基本信息,记录的信息都是从网络上搜索得到的结果。 3.copyreturn表 序号 字段名称 类型 长度 可否为空 1 id int 4 No 2 phoneid varchar 50 No 3 information varchar 50 No 表3-3 copyreturn表 说明: a. 主键为“id”,用来唯一标识返回用户的记录 b. 该表主要是用来储存返回给用户短消息的内容,以便以后查找和分析。 4.history表 序号 字段名称 类型 长度 可否为空 1 id int 4 No 2 phoneid varchar 16 Yes 表3-4 history表 说明: a. 主键为“id”,用来唯一标识用户的备份记录,表的剩余部分和用户表中2-16条是一样的。 b. 该表主要是用来储存备份宾馆的基本信息。是一个日志的数据库表。 5.city表 序号 字段名称 类型 长度 可否为空 1 name char 8 No 表3-5 city表 说明: a. 主键为“name”,用来唯一标识城市的名字,在自然语言的分析中用到此表。 b. 该表主要是用来储存我国每个城市的名字。其作用是再自然语言的分词后与城市做匹配的。 6.especial表 序号 字段名称 类型 长度 可否为空 1 idiom varchar 50 No 2 zhi int 4 No 表3-6 especial表 说明: a. 主键为“idiom”,用来表示唯一标识特殊词, b. 该表主要是用来储存一些特殊的词,以及每个词的权值。在自然语言的分析中用到此表。此表的作用是记录再自然语言分析中一些关键词,如“今天” 、“星期一” 、“五星级”等特殊词的权值。以便程序对其处理。 沈阳航空工业学院毕业设计论文 第4章 行为特性设计 第4章 行为特性设计 4.1 软件结构设计 根据系统的和设计的需要,将程序的功能模块化,以下给出了系统的总体模块图和详细模块图 : 图4-1 系统总体模块图 短信宾馆查询系统,是由人发出短信,由计算机处理人的要求。计算机在处理要求时,有两个步骤。先理解用户是什么意思,后在网络上搜索相关的宾馆信息。再将结果通过短信平台返回给用户。 Ø 短信平台模块的主要任务是:接收用户的短信,再将结果返回给用户。 Ø 自然语言分析模块的主要任务是:首先必须理解用户的意思。即从自然语言文本中抽取出能够代表信息的关键词是这部分的首要目标。再将这些信息存入当前用户的数据库。把参数传递给网上搜索资料模块 Ø 网上搜索资料模块的主要任务是:在网上搜索用户所需要入住的宾馆的消息。不借助于自己所建立的数据库,充分利用网络所提供的资源,实现在网上抓取所要的信息。实现查找资料的自动化,尽可能多的找用户相关的资料。 4.2 功能子模块设计 4.2.1 短信平台子模块 1.界面设计 图4-2 短信平台界面设计 2.短信平台子模块设计 短信平台主要是和电信部门提供的接口连接,利用电信提供的接口,很容易就实现了短信的接和收的功能。这个模块的主要任务是实现从电信服务器上取得数据集。本系统可以间隔一小段时间获得电信服务器上的新信息,并存到本地机器上。在从本地的数据库中调出信息来,传给下一个模块。 3.模块内主要算法的描述 (图中的信息流向不对) 图4-3 短信平台子模块图 4.模块接口的细节 Ø 这个部分用到的数据库是SQL Server 2000,其连接的源代码如下: Class.forName("com.microsoft.jdbc.sqlserver.SQLServerDriver").newInstance(); String url="jdbc:microsoft:sqlserver://localhost:1433;DatabaseName=db"; //db为数据库 String user="xxxx "; String password="xxxx"; Connection conn= DriverManager.getConnection(url,user,password); Ø 获取远端数据库的最新信息 首先要与远端数据库连接上,然后读取该数据库指定表中记录的条数,并在程序中记录下来。以后就每隔一小段的时间(暂定5妙)再去指定表中记录的条数。如果读出的条数大于刚才记录的数,就说明远端的数据库中有新的信息。最后就把最新那条数据读出。写到本地的数据库中。反之则继续每隔一小段的时间扫描。每隔一小段的时间扫描是为了防止程序死循环读远端数据库中的信息造成远端数据库的崩溃。(这一功能的含义) 4.2.2 自然语言分析子模块 1.界面设计 图4-4 自然语言界面设计 2.自然语言分析子模块设计 自然语言分析子模块是由计算机处理人的要求,再将结果返回给网络搜索模块或用户。这个模块的入口参数是从短信平台处传过来的一个用户的短信。从自然语言文本中抽取出能够代表信息的关键词是这部分的首要目标。本模块为下一个模块提供的参数有:宾馆所在市,价钱要求,星级要求,什么样的房间(如单人间,双人间),下住时间,要住的天数等。这个模块提供的参数直接影响了本系统的性能,所以这步部十分关键。 此接口已经用JAVA封装成一个Java数据包了,以后调用就可以直接调用了。 3.模块内主要算法的描述 图4-5 自然语言分析子模块图 4.自然语言分析子模块的细节 Ø Java与MySQL连接 Java与MySQL连接的桥梁是JDBC。JDBC是真正跨平台的纯Java的API,可以直接将JDBC请求转换为制定数据库协议接受的请求。连接的示意图如下: 图4-6 Java与MySQL连接示意图 连接代码如下: Class.forName("org.gjt.mm.mysql.Driver").newInstance(); String url ="jdbc:mysql://localhost/myDB?user=xxxx & password =xxxxx & useUnicode=true & characterEncoding=8859_1" Connection conn= DriverManager.getConnection(url); Ø 将自然语言分词: 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。本系统采用的是基于字符串匹配的分词方法。这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下: I. 正向最大匹配法(由左到右的方向); II. 逆向最大匹配法(由右到左的方向); III. 最少切分(使每一句中切出的词数最小)。 还可以将上述各种方法相互组合,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待要分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分成较小串,再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。 Ø 对单词串进行语义识别 一个语言分析系统无论多么复杂,都可以看做由两部分组成,即元素表和规则系统。分析操作就是把分析目标分解为若干独立的操作对象,构成一个操作域,并通过规则系统映射到更高层元素集合的目标域中去。把词按结构功能分类就形成了句法分析的元素表。完成对语义的识别。 我们在分词后便可以得到单词流,再建立规则库便可以进行语义识别。我们先将字符流进行依次进栈,在进栈的同时用相应的语法规则进行规约(使用汇编中自动机的知识)。当规约到开始符号表示识别完毕,根据使用的语法规则来确定语义,从中便可提取所要的信息。但本系统所要提取的信息比较固定,最多须提取:市,区,价钱,星级,什么样的房间,下住时间,住的天数。所以我们没有必要建立规则库,可以利用语言分析技术进行识别。 这个部分类似信息提取系统,目的在于获取指定的信息,因而往往不需要进行完整的语言分析和理解。其分析过程通常可称作是“浅层的”或“部分的”语言分析(只分析所需要的部分),即找出代表指定信息的词汇、短语等块状语言结构,而不是去弄清楚每一语句的句法结构树。 对于市和区的识别可以分别建立各自的数据库①②,各自进行数据库查询比较。价钱,星级,什么样的房间,下住时间,住的天数等可以用前后的词来推断。首先对单词流进行第一遍扫描,任务是用数据库进行比较出市和区。第二遍扫描,任务是找出单词流中的所有数字信息并作相应的标记。第三遍扫描,找数字信息后面找两个单词同数据库③比较看是否能识别数字信息的性质。如不能识别再找数字信息的前面两个单词进行同样比较,再不能识别就报错。三遍扫描后便将所需信息提取出。也可
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 学术论文 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服