资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,十一章,网络信息收集与整理,本章主要内容,网络信息搜索,搜索引擎比较与搜索技巧训练,网络市场调研,网络信息资源的特点,信息存取自由,内容保罗万象,真假优劣混杂,鉴别难度加大,主要种类,1.,根据网络信息发布者身份进行分类,(,1,)大学 (,2,)政府机构,(,3,)公司企业或其他商业机构 (,4,)学术组织,(,5,)图书馆,(,6,)个人,/,普通大众 如:通过个人网站、个人博客、新闻组、,BBS,等渠道发布信息,2.,根据网络信息性质进行分类,(,1,)网络新闻,(,2,)网络商务信息,1,、电子商务网站发布的商务信息:,B2B,网站,如阿里巴巴,2,、行业、专业网站发布的商务信息,3,、企业网站发布的商务信息 如:海尔建有自己的网络门户,3.,网上提供 下载的主要资源类型,(,1,)文档、超文本文件、图片,(,2,)应用程序,(,3,)多媒体文件,网络信息搜索方法,1.,综合网站,所谓综合网站,是指通向某类综合性互联网信息资源并提供有关信息服务的应用系统。,2.,行业网站,行业网站即所谓行业门户。可以理解为“门,+,户,+,路”三者的集合体,即包含为多行业企业设计服务的大门,丰富的资讯信息,以及强大的搜索引擎。,3.,搜索引擎,搜索引擎是指根据一定策略,运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供搜索服务的系统。,搜索引擎,在搜索引擎结果排列方面,有的直接按来源排列搜索结果,如,Dogpile,;有的则按自定的规则将结果重新排列组合,如,Vivisimo,。,其他非主流搜索引擎形式:,集合式搜索引擎,门户搜索引擎,免费链接列表(,Free For All Links,简称,FFAL,),另外,中国元搜等网站提供大量搜索引擎资源,为学习和了解不同类型的搜索引擎提供了一个方便快捷的入口。,搜索引擎工作原理,1.,一般搜索引擎的工作原理:,(,1,)抓取网页,每个独立的搜索引擎都有自己的网页抓取程序(,spider,)。,Spider,顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为,网页快照,。由于互联网中,超链接,的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。,(,2,)处理网页,搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度,/,丰富度等。,(,3,)提供检索服务,用户输入关键词进行检索,,搜索引擎,从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了,网页标题,和,URL,外,还会提供一段来自网页的,摘要,以及其他信息。,2.,全文搜索引擎工作原理,在上搜索引擎分类部分提到过全文搜索引擎从网站提取信息建立网页数据库的概念。,3.,目录索引工作原理,目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可以按分类目录逐层查找。,4.,搜索引擎的发展趋势,(,1,)智能分析,效率优先,(,2,)搜索营销,商业推广,(,3,)专业主题,垂直细分,常用搜索引擎介绍,1.,百度(,,/),2.YAHOO (,,/,),3.,慧聪行业搜索引擎 (,,/,),4.,新浪(,,/,),5.,搜狐(,,/,),6.,网易(,
展开阅读全文