ImageVerifierCode 换一换
格式:DOC , 页数:4 ,大小:26KB ,
资源ID:6526315      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
图形码:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/6526315.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请。


权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4009-655-100;投诉/维权电话:18658249818。

注意事项

本文(搜索引擎调查报告探测大众心中的秘密隐私 .doc)为本站上传会员【xrp****65】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

搜索引擎调查报告探测大众心中的秘密隐私 .doc

1、此资料由网络收集而来,如有侵权请告知上传者立即删除。资料共分享,我们负责传递知识。 搜索引擎调查报告探测大众心中的秘密隐私   二月初,珍妮·杰克逊(Janet Jackson)因为走光事件上升为Yahoo搜索的人气冠军,其搜索请求达到总数的20%,创下了Yahoo搜索关键词的历史最高记录。这一数字是艳星Paris Hilton曾经所创记录的60倍,是歌星小甜甜布莱妮的80倍。   互联网上的搜索引擎已经成为反映大众趣味和关注焦点的最好工具,   也许比任何其他调查统计都更为真实。   高频词与社会热点   纵观历史,热门词汇反映了短期内大众关注的焦点,长期来看可以

2、连缀出世事的发展脉络。美国康奈尔大学的研究人员Jon Kleinberg曾经做过一项调查,通过统计1790年后每年的美国国情咨文的用词,发现了不同历史时期的热门词汇。例如美国独立战争期间出现频率最高的是“民兵”和“英军”;而在1947年到1959年这段时间内,“原子弹”则被反复地提起。   如今,搜索引擎声称自己知道大众心中的秘密。搜索引擎不只是被动地答疑解惑;事实上,各大搜索引擎提供了包罗万象的统计数据,这些结果也许十分有趣。Keinberg认为:虽然计算机并不懂历史,但是可以通过统计Blog(网页访问记录)、E-mail和网页中的文本“学习”到相关的背景知识,从而更好地理解搜索请求的

3、含义。此外,这些统计数据还可以帮助社会学者和营销人员发现某些正在显露出的大众趋势,为他们的研究或者经营提供参考信息。   在国内,搜索引擎甚至借助这种反映大众趋向的能力,向更广的商业领域主动出击。2004年2月12日,百度搜索和光线传媒共同发布了“2003年全球华人明星人气榜”。热门词汇周杰伦、《无间道》、《天龙八部》、代言人、绯闻和黑幕等榜上有名。在此之前的1月8日,百度搜索还与胡润联手发布了“2003中国大陆百富人气榜”。   但是,搜索引擎有时也会不知所措。比如尝试使用Google搜索哈姆雷特的名言“To be or not to be”,会发现Google竟然答非所问,罗列

4、在页面上的是GNU’s Not Unix官方网站、Hot or Not交友网站……就是不见莎士比亚的影子。这个经典的例子引出了搜索技术的一个术语—停止词(stopword)。   顾名思义,计算机的一切能力都是以计算为基础,即使阅读也不例外。搜索引擎浏览分布在各个角落的网页的同时,还在后台不停地统计词语的出现频率。有一些词语出现率极高,带来巨大的统计成本,却不包含太多的具体意义,比如汉语的“的、是、了”和英文单词“the、and”之流。如果要得出包含该词的全部结果,实在是过多了。例如遇到哈姆雷特名言中的那些高频词汇,经常导致搜索“引擎”突然熄火,因此这些单词得名“停止词”。在Google

5、阅读”哈姆雷特的名言时,遇到了四个停止词,出于无奈,所以它只好对频率最低的“not”进行搜索,得到了一些有关“not”的流行网站。   如果将此名言括上引号,Google便会突然开窍,顺利地寻找到相关的网站。这一功能被称作短语搜索(phrase search)。不过,比Google更智能的是Alltheweb,它已将这句名言列入搜索目录,在结果页面中直接提供了相关链接。   搜索如何实现   “已向英特网搜索gerald salton。共有 5,430 项查询结果,这是第1~10项。搜索用时0.06秒。”0.06秒,体现着以Google为代表的搜索引擎的快捷和高效。这一切,

6、又是如何实现的呢?   通常情况下,一间机房只能摆放10台服务器,但是Google的机房内可以容纳80台服务器,因为它们都是拆掉了机壳和部分零件的裸机。Larry Page和Sergey Brin他们将机器的外壳拆掉,再卸下没用的芯片和零件使整机体积缩小,而且容易维护,当然也节省了租用机房的花销。Google使用了超过一万台的服务器,并将其分散到五个不同地区的机房内,用以应付浩如烟海的网络信息。   为了对每一次搜索请求做出快速的反应,搜索引擎在前期下足了功夫。它们在后台不停地重复三步操作。第一步,搜索引擎会不断的利用爬虫(Crawler)程序搜集互联网上所有可达的网页,无论是公开

7、的还是隐藏的—只要曾被访问过,就会招致“爬虫”上身。这样,定期外出的“爬虫”就为搜索引擎囤积起一个海量数据库。由于“爬虫”外出遵循一定的周期,有时可能跟不上网页更新的速度,所以Google的“网页快照”会出现与目标页面不尽相同的情况。第二步,另一个程序会统计出缓存网页(Cached Page)中各个字词出现的频率。第三步,根据词频概括出页面的中心思想和段落大意,再按照不同的关键词提炼出索引目录。用户的每一次搜索请求都是基于这些索引计算而得,因此响应异常迅速。   无论Google的PageRank专利技术,还是百度全球独有的“超链分析”技术,其大致想法都差不多:统计每个网页被其它网页链接

8、指向的情况,次数越多则级别越高,排名也就越靠前。有的搜索引擎专家指出,搜索算法上UsedRank比PageRank更为准确。UsedRank指的是根据用户点击搜索结果而再次做出的统计。有的页面可能通过开始的计算被排在结果的第八页,但是通过查看每条链接的属性,引擎可以将用户点击多而且浏览成功的页面提到前面来。Alltheweb、Yahoo和百度等搜索引擎都老老实实地统计了每一次点击,而Google则非常直接,不做任何再次统计。   很多服务网站认同这样一个观点,用户是懒惰的。根据点击情况做出的统计,很多用户一般只看完搜索结果的第一页,并不浏览后续页面。因此一些网站把更多的搜索结果显示在第一

9、页上,比如Yahoo,它的“第一页”有20项。而新浪则把“和盘托出”的服务形式发展到了登峰造极,在情人节当天搜索“鲜花”,一下子就跳出了78个网站链接。但是Google、Alltheweb和百度等搜索引擎依然坚持简洁的作风,每页只显示10条搜索结果。   除了搜索算法的不同,各家搜索引擎也在细化服务,推出了日趋丰富的搜索功能,比如大家钟爱的Google图像搜索。其实,Alltheweb的图像功能也十分优秀,它还同时支持音频、视频以及下载站点的搜索。   整合搜索引擎   那么,用户是否不得不逐一访问每个搜索引擎以得到最好的搜索结果呢?也许不必。搜索整合技术可以一次性地提供尽可

10、能多的信息。   搜索整合(Meta Search)如果译作“后搜索”,可能听起来更时髦一些,不过这就无法体现其重新梳理搜索结果这一标志性的功能。通常的搜索是从庞杂的网络资源中按照某个线索分门别类的提取信息,而Meta Search则是在其他搜索引擎的发现结果之上进行再加工,可谓是搜索的搜索。   当用户向搜索整合引擎输入关键词之后,它即向若干个独立工作的搜索引擎同时发送搜索请求,并从它们的网页数据库中检索出所需的信息。搜索整合引擎没有建立自己的网页数据库,它的一切数据都来自其他的搜索引擎;所以,整合的结果也不会比其他任何一家搜索引擎的结果更好。但是,它可以将用户从重复性劳动中解放

11、出来,同时提供更有条理的搜索结果—这也是Meta Search研发之初的理想。   目前搜索整合引擎大致以两种方式进行工作。比较流行的做法是将搜索结果分析整合,删除重复的条目,进而针对主题实现聚类操作。这类网站中的佼佼者有Vivisimo、MetaCrawler和DogPile等。另一类搜索整合网站面向治学严谨的研究者,如SurfWax和Copernic Agent。它们提供关键词的逻辑运算功能,在提供大量搜索结果的同时,协助用户挖掘信息,从而做出更深入的专题研究。第二类网站相当专业,一般需要缴费,在普通用户中并不流行。   关于搜索引擎的数据   ● 在互联网的应用排名中,搜索仅次于e-mail而位居第二;   ● 人均每次输入关键词数量为1.3个;   ● 网页上的高频词汇出现率约占总字数的1/3,在实际搜索中几乎不起作用;   ● 使用搜索引擎高级功能的用户低于0.5%,其中一部分是图书馆管理员。他们向读者提供其无法搜索到的信息,利用的工具还是搜索引擎,不过是高级功能;   ● 2003年,百度被7800万中国网民使用了110亿次,其中有近7亿次搜索与华人明星有关。 4

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服