ImageVerifierCode 换一换
格式:DOC , 页数:8 ,大小:284KB ,
资源ID:9254585      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/9254585.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(基于关键词的互联网网页信息主动搜索系统研制.doc)为本站上传会员【仙人****88】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

基于关键词的互联网网页信息主动搜索系统研制.doc

1、 研究生实验报告 实验名称: 基于关键词的互联网网页信息主动搜索系统研制 课程名称: 任课教师: 学生姓名: 学生学号: 学生学院: 学生学科: 目 录 1 引言 3 2 系统设计与实现 3 3 系统特色分析 6 4 系统自测试 7 5 参考文献 7 6 附件 8 1 引言 随着计算机及网络技术的发展与广泛应用,信息量呈指数增长,知识跟新速度加快,关键词法成为网络信息检索的基本方法之一。据中国互联网信息中的报告显示,用户在查询网络信息时,通过搜索引擎查找相关网站的占百分之七十以上,而

2、基于关键词的网络检索几乎是每个搜索引擎必备的检索途径。 2 系统设计与实现 2.1 关键词检索系统的特点 关键词是一种用自然语言标识的检索语言。这里讲的自然语言是指从文献题名、文摘、正文中抽提出来能直接表达文献主题概念的、针对性最强的非规范化实意词。关键词的选词基本上取自文献作者的自然用词。 关键词的主要优点是 : 1、标引迅速、容易、方法简便,无须查阅词表,减少了确定检索词、查核词表的工序。 2、由于各同义词都可以标引同一主题概念的文献,对于同一篇文献内抽提出来的 关键词又可轮流作为索引标题,这样,便大大增加了检索 和入口,使得信息检索方便灵活 。 3、使用关键词有利于标引信息

3、资料、编制索引等信息加工过程的计算化,从而可 降低对信息加工人员知识水准的要求,可以节约人力。利用计算机编制关键词索引既可代替人工劳动,又十分迅速。 2.2 关键词检索系统的功能要求 建立一个计算机关键词检索系统应具备以下检索功能: 1、逻辑组配检索,即进行关键词之间以及关键词与其它检索项之间逻辑或、逻辑与及逻辑非组配检索。 2、截词检索,即关键词的前方截断词,后方截断词、前后方截断词和中间截断词的截词检索功能。 3、二次检索,即在第一次关键词检索中的文献集合中,通过关键词在文献题名、文摘、全文中再次进行检索,直至检索命中。 4、自动相关检索,即通过建立在系统内的类同义词库进行同类

4、范畴中的同义词自动检索,使用具有概念等同关系中的任一 同义词检索可以检索命中所有同义词的文献。为此,系统还应提出按分类号排列关键词,并且在同类组中建立同义词库的功能。 5、多途径检索,即系统提供多个检索项进行交叉组配的检索功能。 2.3 关键词检索的基本策略 由于关键词是一种非受控后组式检索语言,在计算机系统中是散列的、平等的,只有在检索软件下进行后组配检索才能发挥作用。因此,关键词检索策略对于系统功能来说是十分重要的。下边就检索策略问题,特别是如何编制检索提问式分述如下。 1、检索时首先根据检索者对课题的检索要求进行主题分析,确定检索课题的各主题因素,如主体因素、通用因素、时间因素、

5、位置因素和文件类型因素等,然后选用各种可能的关键词,尤其注意对表达主体因素的长主题词的切分处理,并充分利用截词检索功能。由于关键词标引存在着较明显的标引用词的不一致性,检索时还应选用尽可能多的相关词进行反馈检索。 2、先从分类号检索,然后再用关键词检索,以保证在尽量查全的基础上,努力提高查准率。 3、关键词与分类号相结合进行交叉组配检索,比单纯用关键词和单纯用分类号检索都要好些。由于关键词具有直观、专指和使用方便的特点,人们往往乐于使用关键词进行直接检索,而忽视与分类号交叉组配检索,孰不知分类语言的系统性和网络性刚好弥补了关键词的分散性,两者结合定会减少误检漏检,提高检索效率。 2.4

6、主要指标及其分析 搜索引擎的主要指标有响应时间、召回率、准确率、受欢迎程度、建立索引的方法和相关度等。这些指标决定了搜索引擎的技术指标。搜索引擎的技术指标决定了搜索引擎的评价指标。好的搜索引擎应该是具有较快的反应速度和高召回率、准确率的,当然这些都需要搜索引擎技术指标来保障。 2.5 系统总体设计 该系统是基于Internet的查询系统。系统是建立在B/S三层结构上,既Browser/Web Server/Database。系统模式图如下图所示。 系统数据流图如图所示。 系统流程图如下。 3 系统特色分析 关键词检索是搜索引擎基本的检索方法之一,但采用简单的关键词

7、检索方法容易造成检索结果过多,检全率和检准率都无法满足用户的需求。因此,采用限定检索条件的方法,提高关键词检索的效率。 大多数搜索引擎都采用了一些缩小或约束检索结果的方法,对检索结果进行一定的限制。其限定方式很多,如采用字段检索来限定检索词在数据库记录中出现的手段范围,可限定在网站、网页或网页的层次、标题、正文、URL等,还也可以限定文件格式、日期、语言、类型、范围、收费情况及是否为专家推荐等。一般而言,在搜索引擎中限定检索是以高级检索的形式出现的,通过该方式可以过滤一些不必要的信息资源,提高检准率,节省用户的时间和精力。 4 系统自测试 对界面的测试:能够通过界面把数据写入文件并能够从

8、文件中读出在页面上显示。返回和执行按钮可以正常的使用。数据的修改和删除功能能够正常使用。但对于异常数据没有进行判断以致不合法的数据也可以写入配置文件。对爬虫程序的测试:输入不合法的 URL。能够把错误类型写入日志文件。输入各种类型的 URL,只对 http 和 https 链接处理其他链接被视为异常。对系统速度的测试: 经过多次运行计算平均数值。 得到系统的运行效率不是很高。 平均每秒大约下载 3 个网页。 本系统主要完成了以下功能:监控网址的添加与删除,对网页数据信息的抽取过程,以及抽取完成之后,对抽取信息的浏览,最后还有与数据库的交互操作(抽取的数据都唯一的存储在数据库中。 同样的,通

9、过对测试结果的分析可以发现,系统在对于规律性强的网页内容分析提取方面相当出色。在高质量的内容提取的支持下,搜索引擎提供给用户的搜索对象的范围得到了扩展,准确率也有所提高。但同时也注意到,在新闻等文字性较强的网页信息搜集方面,系统的表现还有待提高。使用目前的网页内容分析提取方式很难适应这类网页的特殊要求,计划在系统中加入另一种信息搜集方法来改进工作表现。这也是系统未来的发展方向之一。 5 参考文献 [1]贺广宜,罗莉.分布式搜索引擎的设计与实现.计算机应用,2003 [2]周雪忠,吴朝晖.文本知识发现:基于信息抽取的文本挖掘.计算机科学,2003 [3]陈华,罗昶,王建勇.基于Web的百

10、万级FTP搜索引擎的设计与实现口.计算机应用,2000 [4]吴功宜,计算机网络(第三版).北京:清华大学出版社,2007 [5]张海藩,软件工程导论(第五版).北京:清华大学出版社,2008 [6]Winter,中文搜索引擎技术解密:网络蜘蛛.人民邮电出版社,2004 [7]蒋宗礼,赵钦,肖华,等.高性能并行爬行器.计算机工程与设计,2006 [8]张三峰,吴国新.一种面向动态异构网络的容错非对称DHT方法.计算机研究与发展,2007 [9]余锦,史树明.分布式网页排序算法及其传输模式分析.计算机工程与应用,2004 [10]沈贺丹,潘亚楠.关于搜索引擎的研究综述.计算机技术与发展,2006 6 附件 见实验二代码文件夹。

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服