收藏 分销(赏)

学会系统的分析搜索引擎数据.doc

上传人:仙人****88 文档编号:9073355 上传时间:2025-03-12 格式:DOC 页数:2 大小:102.50KB 下载积分:10 金币
下载 相关 举报
学会系统的分析搜索引擎数据.doc_第1页
第1页 / 共2页
学会系统的分析搜索引擎数据.doc_第2页
第2页 / 共2页
本文档共2页,全文阅读请下载到手机保存,查看更方便
资源描述
  今天我们来简单介绍一下搜索引擎的整个工作流程的第二个系统:数据分析系统,这也是搜索引擎网页抓取收录系统之后的一个系统。搜索引擎数据分析系统主要用于处理抓取回来的网页。下面是关于这个系统的几个主要的知识点和主要流程:数据分析系统是怎么样处理这些网页的呢?   1、提取文字   我们都知道网页中包含了各种代码(Html、javascript等),这些东西无法用于排名计算,所以数据分析系统首先要做的就是删除掉这些代码,提取出文字内容。下面图1为提取文字之前,图2为提取文字之后:   图1 图2 提取文字这部分一目了然,大家应该都懂了吧。     2、内容消噪   我们的网站中很多页面都有对主体内容毫无影响的内容,对搜索引擎的排名计算毫无用处,比如导航文字、底部版权信息等,这些内容被比喻为网页的噪声,搜索引擎便会把他们删除,整个过程称为“消噪”。那么搜索引擎是怎样来判断哪些内容是噪声呢?很简单,采用对比即可。比如每个内容页除了真正的内容不一样以外,一般其他的“噪声”内容都是一样的,如导航文字,每个页面都一样吧,底部版权也是每个页面都一样。   3、分词处理   分词简单来说就是把一句话或一句短语分成N个词语。至于分词怎么分,搜索引擎会根据自己所拥有的词库字典和分词算法来进行分词,每个搜索引擎都是不一样的。分词又分为中文分词和英文分词。对于分词技术,都是搜索引擎内部的事情,我们seoer能做的很少,主要就是在为网站写标题以及计算关键词密度时会考虑到。   4、去无用词   无论中文还是英文的文章中,都会有很多对内容影响不大,出现频率却很高的字词,中文的如:的、地、啊、呀等等,英文的如:the、to、of、a、an等等   5、页面去重   这个就很好理解了,意思就是搜索引擎会把你这个页面与它以前抓取的页面作针对性的对比,如果有重复的,便会删除,以减少无意义的重复信息。这便是我们站长们到处找原创、伪原创文章的原因。搜索引擎的去重算法比较强大,像一般简单的增加“的”“地”“得”或者简单调换段落顺序所谓的伪原创并不能逃过它的法眼。   6、对页面的链接进行分析   这是搜索引擎数据分析系统的最后一个步骤,主要通过对该页面的内链和外链进行分析,计算其权重值,然后根据权重影响该页面关键词的排名情况。
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服