1、 学校代号 10532 学 号 G131560413 分 类 号 TP311 密 级 公开 工程硕士学位论文高校新闻网系统的设计与实现学位申请人姓名 培 养 单 位 软件学院 导师姓名及职称 学 科 专 业 软件工程 研 究 方 向 高等教育管理信息化 论文提交日期 2015年10月10日 学校代号:10532 学 号:G131560413 密 级:公开 湖南大学工程硕士学位论文高校新闻网系统的设计与实现学位申请人姓名: 导师姓名及职称: 培 养 单 位: 软件学院 专 业 名 称: 软件工程 论文提交日期: 2015年10月10日 论文答辩日期: 2015年12月12日 答辩委员会主席: D
2、esign and Implementation of University News Net SystembyLI XinyuB.E.(Jishou University)2006A thesis submitted in partial satisfaction of the requirements for the degree ofMaster of scienceinSoftware Engineeringin the Graduate schoolof Hunan UniversitySupervisorProfessor Yin ShiyouOctober,2015工程硕士论文湖
3、南大学学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。 除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的 成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完 全意识到本声明的法律后果由本人承担。 作者签名:日期: 年 月 日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有 关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南大学可以 将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复
4、制手段保存和汇编本学位论文。本学位论文属于保密 ,在 年解密后适用本授权书。2不保密。 (请在以上相应方框内打”)作者签名: 日期: 年 月 日导师签名: 日期: 年 月 日工程硕士论文摘 要随着网络在世界范围的飞速发展,互联网作为最具潜力与活力的媒体已经被公认是继报纸,广播,电视之后的“第四媒体”,成为反映社会新闻热点的重要载体。为了及时了解高校内部重大事件和网络新闻热点,相关机构引入了高校新闻网系统。在传统高校新闻网系统的基础上对高校新闻网系统进行改进,使得系统能通过爬虫技术进行对“感兴趣”的新闻数据信息进行获取,以此来实现新闻定制功能。首先利用爬虫技术将新闻数据获取到本地数据库中,然后将
5、新闻信息以及新闻分析的结果将在前台网页中进行可视化输出,前台主要由HTML+CSS来实现,后台主要通过JDBC+SQL实现。本文主要进行了以下几个方面的工作: (1) 对当前相关课题研究背景和现状进行分析,得出当前高校新闻网系统所存在的主要问题。并对新闻网系统相关的开发技术进行研究和学习,提出系统设计部分所使用的技术方案。(2) 根据新闻网系统的实际情况及所存在的问题,对其进行需求分析,包括了系统的功能性需求分析和非功能性的需求分析。(3) 通过调查研究,本文所设计的新闻网系统主要包括了系统管理模块、新闻信息采集模块、新闻信息发布模块、新闻信息评论模块、站内搜索模块及信息汇总分析模块等六大功能
6、模块。并对其中的主要功能模块进行详细的设计和开发。(4) 对系统进行实现和测试,包括了系统的主要功能模块实现及功能性方面的测试,并对测试结果进行分析。从系统实际运行和功能性测试的情况可以看出,系统的功能完善,性能出色,基本满足高校对新闻网的需求,实现了新闻信息发布及时性、高效性,达到了预期的效果。本文创造性的成果在于利用互联网技术解决高校新闻网在实际应用过程中所存在的问题,将高校新闻信息管理与互联网技术相结合,为高校大学生提供了一个自由的新闻信息交流平台。通过该平台,大学生及网站访问者可以发表自己的意见和看法,同时也可以进行在线投稿的方式来发布当前的热点新闻信息。大大实现了新闻热点信息的及时高
7、效传播,减少了人力、物力成本,提高了效率。关键词:新闻热点;高校新闻网;B/S;J2EE;IAbstractWith the rapid development of Internet in the world, the Internet as the most potential and dynamic media have been recognized after newspapers, radio, televisions fourth media, a reflection of the social hot news important carrier. In order to k
8、eep abreast of events inside the universities and network news hot spots, relevant institutions to introduce university news network systems. Based on the traditional system of colleges and universities News on colleges and universities to improve information network system, so that the system can b
9、e of crawler technology interesting news data information acquisition, in order to achieve the news customization features. Firstly crawler technology to get news data to a local database, then the results news and news analysis will visualize the output pages at the front desk, the front desk mainl
10、y by HTML + CSS to achieve, background, mainly through JDBC + SQL implementation. This papers mainly works include the following aspects: (1) The background and status of current research related topics were analyzed and the main problems of the current system of colleges and universities that exist
11、 News Network. News systems and the development of technology related to research and study, propose technical solutions used part of the system design. (2) According to the actual news network systems and the problems, its needs analysis, including the analysis of the functional requirements of the
12、 system and non-functional requirements analysis. (3) Through research, design herein News Network system includes a system management module, news and information collection module, news and information release modules, news commentary module, the station search module and analysis module summary i
13、nformation such as the six functional modules. And one of the main function module detailed design and development. (4) Implementation and testing of the system, including the main function modules of the system to achieve and functional aspects of the test, and to analyze the test results.As can be
14、 seen from the actual operation of the system and functional testing, functional system improvement, excellent performance, basically meet the needs of universities for news network, to achieve the release of news and information in a timely manner, high efficiency, to achieve the desired effect. In
15、 this paper, the results of that creative use of Internet technology to solve Universities News in practical application process the problems, the universities and the Internet news information management technology, for college students to provide a free news and information exchange platform. Thro
16、ugh the platform, university students and site visitors can express their views and opinions, but also for online submission of ways to publish current hot news. Greatly to achieve a timely and efficient dissemination of information news hot spots, reduced manpower, material costs and improves the e
17、fficiency.Keywords: Hot News; Universities News Network; B/S; J2EE;III目 录摘 要IAbstractII目 录IV第1章 绪 论11.1 课题背景与研究意义11.2 国内研究现状31.3 论文的研究目的与内容41.4 论文的组织结构6第2章 系统相关技术72.1 J2EE体系概述72.2 网络爬虫技术72.2.1 URL82.2.2 网络爬虫概述82.3 B/S体系结构92.4 MVC架构体系102.5 SQL Server 2005 概述112.6 本章小结12第3章 高校新闻网系统需求分析133.1 系统需求分析概述13
18、3.2系统可行性分析133.2.1 技术可行性143.2.2 经济可行性143.2.3 管理可行性143.3 系统主要功能模块的需求分析143.3.1 系统管理模块的需求分析153.3.2 新闻信息采集模块的需求分析163.3.3 新闻信息发布模块的需求分析173.3.4 新闻信息评论模块的需求分析183.3.5 站内搜索模块的需求分析193.3.6 信息汇总分析模块的需求分析193.4 系统性能需求分析203.5 开发平台和语言203.5.1 系统硬件平台203.5.2 系统软件平台及开发工具213.6 本章小结21第4章 高校新闻网系统的设计224.1 系统概述224.2 系统设计原则22
19、4.3 系统功能模块划分234.4 系统软件架构设计234.5 系统主要功能模块的设计254.5.1 系统流程分析254.5.2 系统登录模块的设计264.5.3 数据获取功能模块的设计274.5.4 新闻信息采集模块的设计294.5.5 新闻信息发布模块的设计294.5.6 新闻信息评论模块的设计314.5.7 信息汇总分析模块的设计334.6 数据库的设计354.6.1 数据库逻辑结构设计354.6.2 系统数据库的E-R图374.7 本章小结37第5章 高校新闻网系统的实现385.1 系统运行环境385.2 系统界面设计原则385.3 系统主要功能模块的实现395.3.1 系统主界面39
20、5.3.2 注册登录模块395.3.3 数据获取功能模块的实现405.3.4 新闻信息采集功能模块的实现435.3.5 新闻信息发布功能模块的实现445.3.6 信息汇总分析模块的实现455.3.7 站内搜索模块的实现465.4 本章小结48第6章 高校新闻网系统的测试496.1 系统测试环境设置496.2 系统功能测试496.3 测试结果分析516.4 本章小结51结 论52致 谢54参考文献55VVII附表索引表3.1dbo.newstype28表3.2 表News的结构28表3.3 数据源信息列表28表3.4 表Users的结构29表3.5 新闻信息列表29表5.1 测试用例一74表5.
21、2 测试用例二76表5.3 测试用例三77表5.4 测试用例四78表5.5 测试用例五78表5.6测试用例六80IX高校新闻网系统的设计与实现第1章 绪 论本章主要阐明了该课题的研究背景及其研究意义,简要说明了国内外对于高校新闻网系统的研究现状,并介绍了本论文的主要内容组成以及论文的组织结构。1.1 课题背景与研究意义近年来,随着互联网的发展迅速,各种新闻网站应运而生,新闻网逐渐成为各部门发布消息的重要渠道。学校是一个大的群体和组织,每天都发生许多重要事情,急需通过一种方便、快捷、高效的方式发布。高效新闻网已成为学校对内发布消息、对外进行宣传的最重要的窗口和阵地。当前,高校新闻媒体主要由学校广
22、播站、校电视台、校记者团、微信公众号、校报等媒体组成。高校新闻网是一种由高校建立、发布高校内部新闻、传播相关信息、收集有关建议、服务广大师生的综合性媒体平台。它是对传统宣传媒体的扩展,也是对网络宣传的合理使用,它利用互联网的优势实现新闻信息的整合和发布。互联网时代,高校新闻网将发挥着高校信息发布、大学形象塑造、学生思想教育和大学文化积淀等作用。高校新闻网的信息发布一般包括三大方面:一是公布学校各项活动,比如工作安排、学术讲座、文艺活动和有关学校各类新闻等相关信息。二是与校外保持信息沟通,将学校内的媒体信息及时传给校外媒体,并从校外获取校园相关信息,及时整理发布,让广大师生能尽快了解到学校的最新
23、资讯。三是收集国内外最新高教信息并保持日常更新,形成有价值的信息链,成为高校管理层决策提供信息源和资料库。塑造大学形象的手段来说,高校新闻网具有灵活性,它不受出版周期篇幅长短限制,能第一时间报道和更新学校重大新闻,可以追求个性化的栏目设置等。塑造大学形象的过程来说,高校新闻网具有多样性,高校形象的塑造一方面需要不断积累自身的修养和大学生学术精神,同时也要通过校园媒体不断对展现高校自身的优良品质,提高高校的声望。公众媒体将高校网中的新闻信息获取并发布到网络中,广大民众可以通过社会新闻及时了解到各个高校的内部情况,极大的增加了高校内部事情的知晓度,增加了社会对高校新闻的了解。塑造大学形象的效果来说
24、,高校新闻网更具有影响力。高校新闻网站一般是其发布各种信息和新闻的权威机构,在互联网时代背景下,大众对高校的了解渠道越来越多地倾向于点击学校的门户网站。目前,一般学校的门户网站上的主体内容通常是高校新闻网,广大民众从网络了解到高校的第一手资料,通过网络中高校信息发布来加深对高校的了解。尤其是对于海外和众多校友来讲,可以说,高校新闻网让自己的社会关注度迅速增加,走出学校,走向世界。目前,国内大部分高校都建成了自己的新闻网站,并能积极研究和探索网络媒体的基本规律,大胆创新,为广大师生和社会经济发展服务,迅速成为了传统媒体之后对外宣传、信息发布的重要阵地。针对高校新闻网运行现状及存在的共性问题,相关
25、学者就如何更好地建设高校新闻网,使其更好地服务于大学发展战略的实施作了研究和探讨。总体来说,大部分高校新闻网已呈现了网络和高校新闻宣传工作的直接融合,在大学发展和建设中发挥着不可替代的作用。但其上升空间仍然很大,仍存在一些突出问题需要改进和加强。这些问题主要是:(1)功能性单一、定位模糊高校新闻网更多只是作为校方的新闻发布平台而存在,全面准确、快速及时进行新闻传播本是新闻网最主要的功能,但是不能成为唯一的功能,还应将与师生工作学习有关的各种信息及时进行提供和发布,并在这个基础上进行功能的延伸,更好地为教学科研服务。另外,高校新闻网作为高校重要的舆论宣传阵地,具有舆论引导和大学思想政治教育的功能
26、。目前,一些高校新闻网在校园文化塑造过程中的作用不够突出,尚未能够完全引起学生规模性的文化共鸣,高校新闻网在校园文化建设方面的优势尚未得到充分发挥和利用17。(2)互动性不强高校新闻网的内容与师生的生活学习联系不够紧密,缺乏吸引力。内容更多是一种新闻报道,以宣传学校工作状态和成绩为主,对教师和学生关注度不够高,内容可读性不强,分析评论不多或者深度报道不够,这些问题导致师生的参与度不高,互动性不强18。从技术层面讲,互动也难以实现,无法体现新闻“贴近生活、贴近实际、贴近群众”的生动活泼要求。(3)特色不明显大多数高校新闻网的阅读对象都比较单一,定位也比较简单,主要担负新闻宣传和舆论引导,实用性不
27、强,影响力有限,特色不够明显。同质化现象比较明显,有的学校栏目设置既没有体现学校风格,更无法体现学校的精神,尤其以学校特色为社会提供服务明显缺位19。对该课题进行研究,既是推动高校信息化建设的必然要求,也是新时期高校顺应网络时代的特性,开拓育人发展新途径的迫切需要。应用网络通信技术传达最新动态,已成为今天通信中的重大部分,随着互联网的飞速发展,新闻在网络中的发布也越来越多的引起教育机构、政府及企业单位的高度重视。组建校园网新闻发布系统,快速传达校园内外最新动态,有利于加强师生的互动性,拓展师生的生活视野。本文阐述了校园网新闻发布系统的需求及内涵,深入分析校园网新闻发布系统的体系结构及应用,最终
28、讨论新闻发布系统的编程技术与实现。编制校园网新闻发布系统应遵守软件工程的原则,本文从新闻发布系统设计、功能目标设计、具体页面的确定及数据库的设计等几个方面来说明新闻发布系统的技术与实现。伴随着网络校园化,校园文化、校园动态的传播方也明显改变从过去的纸上传播变为网络传播。校园网新闻发布系统作为校园传播最新动态,传播学校方针,让同学了解学校了解社会的平台,它能为学校的建设计与发展带来深远的影响。同时也为学生的发展提供优越的环境。互联网技术飞速发展,网络成为新闻媒介工具,其用户大大增加,对系统的要求也越来越高。以往的高校新闻网功能简单,效率低,新闻更新与维护难度大,成本高,难以满足广大用户的需求,不
29、利于管理人员的使用。要逐步加强新时期高校新闻网的影响力和感染力。作为新闻发布系统的重要组成部分,高校新闻网体系也因此得到了进一步发展。在目前市场经济的环境下,获得及时的信息的同时还需要高效的存储及读取和安全的防护措施来保护信息不受非法用户或未授权的用户窃取。由于现在信息的掌握和共享已经成为新闻网站吸引广大用户的制胜法宝,建立一个高效的存储和读取及高安全性的高校新闻网系统已经成为一种必然。1.2 国内研究现状现如今各个国家的新闻管理体系,基本上都是基于Internet技术平台而建立的,其界面以及中心分别是标准浏览器和完整的多媒体数据库,大量使用标准的Web以及群件技术。 整体来讲,在运营以及管理
30、上,我国新闻行业要落后于其他国家。国外在很早之前就已建立了新闻管理体系,同时在采编新闻等方面也已完成了网络、无纸以及职能化。美国纽约时报所有员工的办公桌在很早之前就配置了集成语音的E-mail系统以及各种即时信息传递系统,比如网络聊天,在北电的CallPilot统一通信产品中,以上提到的功能都已实现。其编辑工作者能从不同渠道了解新闻信息,从而为各个新闻系统部门间友好合作提供保障,每个环节和流程都紧密相连,从而让新闻管理以及生产实现一体化,使新闻信息的传播以及采集范围有所拓展2-3。很多大型门户网站,比如雅虎和谷歌,它们为了在第一时间对网站信息的更新进行监测,都建立了网络信息自动搜集体系。除此之
31、外,这些新闻网站基本上都能对RSS聚合功能提供支持,同时能在第一时间向用户推送新闻信息。像纽约时报以及华尔街日报等全球著名的新闻媒体网站,其电子版都具有RSS订阅功能,Wiki等极具代表性的Web2.0技术得到广泛应用9。在信息化建设以及管理运营上,国外新闻业要领先于我国。不过这几年,我国新闻业的发展速度也很快,同时获得了一定成效,华文资讯等多家企业建立的新闻采集体系都获得了显著成效。很多智能和一体化同时有很强网络化的新闻管理体系,比如北大方正报业采编体系在一些媒体机构中得到了大量使用,同时出现了很多非常优秀的新闻门户网站,比如凤凰、腾讯以及人民网等。在采编以及发布新闻方面,这些门户网站基本上
32、都采取了Web2.0的有关技术。比如,新华网具有涵盖世界各个角落的新闻信息采集网络,为了让读者能在第一时间了解新华网的新闻报道以及热点新闻,从2004年起开始提供RSS订阅功能,同时变成我国第一家提供RSS聚合新闻服务的门户网站。新华网RSS聚合新闻服务很容易操作,读者仅需通过其RSS聚合新闻服务,将自己想了解的栏目链接在RSS新闻阅读器中进行订阅,只要网站新闻有所更新,那么用户就能及时从RSS推送的新闻中进行了解,通过RSS新闻阅读器,用户就能了解自己想要知道的各种新闻10。Wiki技术被百度网站广泛使用,以Wiki为基础的百度百科已变成我国影响最大同时使用人数最多的互动式互联网百科全书。通
33、过实践可知,早在十几年前,我国报纸就有了网络化的苗头,不过现如今依然有9/10的报纸网络版处在起步阶段。而关于现如今各个国家一些对新闻门户网站已有的探究,主要有下面几个问题11:(1) 维护难度大因为开发人员的技术以及水平有限,之前的系统代码编写非常混乱,尚未根据MVC的思想进行研究以及编写,没有清晰的逻辑,维护系统的难度非常大。(2) 无法满足大规模房屋需求我国大部分新闻网站在搜集以及发布新闻时,都是在一个服务器上完成。由于新闻网站门户性的需求,这样的方式已无法满足目前的需求。(3) 管理用户界面存在不足即使只有少部分人使用管理用户界面,不过完善的管理用户界面能提升员工的工作效率,减少劳动费
34、用,便于使用。(4) 系统功能有待加强因为用户一直对系统功能提出新要求,之前仅具有信息维护作用的管理体系已无法满足用户现在的需要。现有的新闻网系统管理员可以对用户信息和新闻内容进行增删改查,基本上处于最原始的网站发布系统,没办法从各大新闻网站自动获取自己感兴趣的新闻信息,对新闻进行定制。1.3 论文的研究目的与内容本小节主要明确系统的研究目标,根据系统的研究目的确定系统主要的研究内容。(1)研究目的高校新闻网系统的主要研究目的包括以下几点: 引导舆论通过正确的社会舆论有利于建设和谐社会。所以,构建和谐的校园文化也需要通过舆论来促进。作为高校重要舆论阵地的校园新闻网,更应该坚持正确的正直方向和舆
35、论导向。 营造和谐的育人氛围高校新闻网作为新经济的重要载体和信息传播的新媒体,越来越成为当代大学生适应社会发展需求、获取知识和各种信息的重要渠道,因而网络对大学生的学习、生活和行为乃至思想观念有着广泛而深刻的影响。 取代传统新闻媒介,构造信息化宣传平台传统的高校新闻媒体主要有校记者团、校报、校广播站等,这些新闻媒体在人力、物力和财力上都造成很大浪费,且这些宣传方式在信息社会已经显得落后。高校新闻网的建立就是为了减少资源浪费,构建一种紧随时代脉搏的信息化宣传平台。(2)研究内容高校新闻网系统在这样一个信息高速发展的时代被打上了信息化、高效化的标记。为了满足人们对最新信息的实时性和可靠性需求,对高
36、校新闻网系统的研究迫不及待。本系统的研究内容是要求系统能够对新闻进行有效的更新、统计、分类,能够通过网络爬虫技术从各大新闻网站自动获取自己感兴趣的新闻信息,对新闻进行定制。同时对该系统用户进行权限划分,确保系统的安全性。(3)系统采用的开发方法管理体系的创建是一项非常繁琐的软件工程。软件工程在这二十多年来慢慢演变成一门新科学,截止到目前,已变成软件领域的核心支柱。它是一种确保软件满足用户的特定需求和避免设计编码中出错的方法,它在软件设计和开发过程中引进一种严格的规则,这种规则类似于其他工程的原则。由于计算机硬件技术的迅猛发展,越来越多的行业开始使用计算机软件,被人们使用很久的手工作坊式开发软件
37、的方法,在很多方面,比如软件产品成本、质量等都不能让用户需要得到满足。“软件工程这个名词,于1968年第一次提出,经过分析和研究GOTO语句的使用,引出了结构化程序设计的含义,从这开始,人们对系统设计以及软件需求规格说明书在软件开发中的作用给予了足够的关注21”。1980年左右,很多专家进一步优化了软件工程理念,同时建立了企业系统规划法、结构化生命周期法等大量的工程方法。根据几种开发方式的对比以及本系统的特征,本文是通过结构化生命周期法展开系统设计以及研究的24。结构化生命周期法是使用时间非常久的管理系统开发方式。其核心理念是将系统的开发过程划分成不同的阶段,各个阶段的活动有很大区别,各项活动
38、使用很多规范、技术以及标准和方法,完成不同的任务,从而产生和既定规范相符的产品。在开发大型系统时,这种方法被广泛使用。先逻辑后物理、文档标准化以及从上到下和用户参与的准则就是使用结构化生命周期开发所必须严格遵守的22。其具体步骤大致可以分为以下四步:(4)系统规划进行市场调研,调查系统研究背景及意义,提出问题。(5)系统开发 系统开发主要包括以下几步: 系统分析:初步分析系统;系统的可操作性分析;详细调查目前正在实施的系统;制定新系统的逻辑方案。 系统设计:设计系统整体结构;设计系统整体物理结构以及功能;系统详细设计;设计代码、处理过程以及数据库等。 系统实现:程序设计;系统测试。(6)系统运
39、行及维护周期性检查系统运行状况以及各个功能的操作情况,对错误的处理能力以及系统性能。出现不能满足用户需要的情况后对产品进行维护,具体包括改正性维护、适应性维护、完善性维护,以便改变和加强系统功能。(7)系统评价对系统展开实用性、完善性、正规性等方面展开评价,指出系统的特点。1.4 论文的组织结构根据课题所研究的内容及过程,本文共分为六章,包括如下内容:第一章 绪论,介绍本论文的开发背景、国内外研究现状、本文主要研究内容,并且明确了开发该系统所采用的方法及论文结构。第二章 系统相关技术,本章节主要是对系统相关的技术进行分析描述,为后面的系统设计部分做铺垫。第三章 高校新闻网系统需求分析,通过对系
40、统的功能方面需求和非功能方面的需求分析,明确了高校新闻网系统应具备的功能要求以及需解决的技术和逻辑上的难点。第四章 高校新闻网系统的设计,在第三章需求分析的基础上,应用自顶向下的设计方案,从整个系统到主要功能模块对系统进行设计。包括了系统中的数据获取、新闻信息采集、新闻信息发布、新闻信息评论、信息汇总分析及系统数据库的设计。第五章 高校新闻网的实现,以系统设计为指导,针对高校新闻网系统的主要功能模块,对系统进行实现说明。第六章 高校新闻网系统的测试,利用测试环境,从测试用例入手,主要介绍了系统的功能测试方面的情况,分析测试过程和测试结果,得出了测试的结论。最后给出本文的研究结论,对本论文的主要
41、研究成果及工作进行认真总结,并讨论系统的实际价值,指出系统在实践应用中存在的问题,为今后系统的改进提供了很好的指导方向。第2章 系统相关技术该部分主要对系统涉及到的相关技术进行介绍,分析各种技术的利弊,主要包括URL消重、URL类访问网络、爬行策略、SQL Server数据库以及ASP以及一些相关的开源工具等。2.1 J2EE体系概述J2EE4是一个完全与传统开发技术完全不相同的框架,里面带有许多组件及子组件,这些组件可优化和规整应用系统的研发与部署,进而提升开发的速率,也有很好的可移植性、安全性及代码复用等良好特性。J2EE由一套完好的Services、接口(API)和协议组成,J2EE是一
42、些开发技术相关的规定和开发的指南,J2EE所包含的组件、服务和相关技术,都具有相同的标准,这就使得采用J2EE框架的各种不同平台及平台之间,都能够很好的得到兼容。这样就将之前企业内部与外部不能良好的进行交互及企业内部或外部不能信息共享及相互通信的问题给解决了。2.2 网络爬虫技术2.2.1 URL在介绍网络爬虫之前,先引入URL的相关知识。URL是URI的一个子集。它是Uniform Resource Locator的缩写,译为“统一资源定位符”。通俗地说,URL是Internet上描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上,特别是著名的Mosaic。采用URL可以用一种统
43、一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。URL的格式由三部分组成:第一部分是协议(或称为服务方式)。第二部分是存有该资源的主机IP地址(有时也包括端口号)。第三部分是主机资源的具体地址,如目录和文件名等。第一部分和第二部分用“:/”符号隔开,第二部分和第三部分用“/”符号隔开。第一部分和第二部分是不可缺少的,第三部分有时可以省略。用URL表示文件时,服务器方式用file表示,后面要有主机IP地址、文件的存取路径(即目录)和文件名等信息。有时可以省略目录和文件名,但“/”符号不能省略。例如file:/爬虫最主要的处理对象就是URL,它根据URL地址取得所需要的文件内容,然后对
44、它进行进一步的处理。2.2.2 网络爬虫概述网络爬虫,又被称为网页蜘蛛,网络机器人,随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。在万维网飞速发展的网络背景下,搜索引擎在人们的生活工作中无疑扮演着重要的角色,而网络爬虫则是搜索引擎技术的最基础部分。例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,已经作为一个辅助人们检索信息的工具成为了用户访问web的入口和指南。在搜索引擎成为主流检索工具的今天,互联网上的网络爬虫各式各样,但通过网络爬虫来获取网页数据信息的基本步骤大致相同:(1) 人工给定一个URL作为入口,从这里开始爬取
45、。万维网的可视图呈蝴蝶型,网络爬虫一般从蝴蝶型左边结构出发。这里有一些门户网站的主页,而门户网站中包含大量有价值的链接。(2) 用运行队列和完成队列来保存不同状态的链接。对于大型数据量而言,内存中的队列是不够的,通常采用数据库模拟队列。用这种方法既可以进行海量的数据抓取,还可以拥有断点续抓功能。(3) 线程从运行队列读取队首URL,如果存在,则继续执行,反之则停止爬取。(4) 每处理完一个URL,将其放入完成队列,防止重复访问。(5) 每次抓取网页之后分析其中的URL(URL是字符串形式,功能类似指针),将经过过滤的合法链接写入运行队列,等待提取。(6) 重复步骤3)、4)、5)。2.3 B/S体系结构B/S结构即浏览器/服务器模型,它是在互联网技术出现后的一种开发的体系模式,在客户的电脑上只需自带一个浏览器(brower)。这种设计模式使客户端的功能变的很简单,客户机因此只需具有接受和发送请求的功能就可以了,但是必须把系统的核心的功能放在服务器一端,客户端通过浏览器向服务器发送请求,服务器来对其