搜索引擎会跟踪网页上的链接5-v.org.doc

资源描述

1．爬行和抓取搜索引擎派出一个能够在网上发现新网页并抓取文件的程序，这个程序通常被称为蜘蛛（spider）或机器人(robot)。搜索引擎蜘蛛从数据库中已知的网页开始出发，就像正常用户的浏览器一样访问这些网页并抓取文件。并且搜索引擎蜘蛛会跟踪网页上的链接，访问更多网页，这个过程就叫爬行(crawl)。当通过链接发现有新的网址时，蜘蛛将把新网址记录入数据库等待抓取。跟踪网页链接是搜索引擎蜘蛛发现新网址的最基本方法，所以反向链接成为搜索引擎优化的最基本因素之一。没有反向链接，搜索引擎连页面都发现不了，就更谈不上排名了。搜索引擎蜘蛛抓取的页面文件与用户浏览器得到的完全一样，抓取的文件存入数据库。 2.索引搜索引擎索引程序把蜘蛛抓取的网页文件分解、分析，并以巨大表格的形式存入数据库，这个过程就是索引(index)。在索引数据库中，网页文字内容，关键词出现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录。搜索引擎索引数据库存储巨量数据，主流搜索引擎通常都存有几十亿级别的网页。 3．搜索词处理用户在搜索引擎界面输入关键词，单击“搜索”按钮后，搜索引擎程序即对输入的搜索词进行处理，如中文特有的分词处理，对关键词词序的分别，去除停止词，判断是否需要启动整合搜索，判断是否有拼写错误或错别字等情况。搜索词的处理必须十分快速。 4.排序对搜索词进行处理后，搜索引擎排序程序开始工作，从索引数据库中找出所有包含搜索词的网页，并且根据排名算法计算出哪些网页应该排在前面，然后按一定格式返回“搜索”页面。排序过程虽然在一两秒钟之内就完成并返回用户所要的搜索结果，实际上这是一个非常复杂的过程。排名算法需要实时从索引数据库中找出所有相关页面，实时计算相关性，加入过滤算法，其复杂程度是外人无法想象的。搜索引擎是当今规模最大、最复杂的计算系统之一。但是即使最好的搜索引擎在鉴别网页上也还无法与人相比，这就是为什么网站需要搜索引擎优化。没有SEO的帮助，搜索引擎常常并不能正确返回最相关、最权威、最有用的信息。 7.1.2什么是SEO 我参与创建的SEO爱好者平台“点石互动”刚成立时接受天极网的采访，编辑问：目前国内SEO的重点在哪里？我们几个创始人都不约而同地提到是进行客户教育，改变人们对SEO的错误看法。这确实是非常困难的。到底什么是SEO?两年过去了，还是有太多人误解。SEO的定义其实很简单，就不再说了，读者可以从以下几方面加深理解。 l SEO不是钻空子找窍门，而是做强网站。太多人认为SEO是利用搜索引擎算法的漏洞钻空子，实际上SEO是从各个角度把网站做强。作弊不是SEO，把网站做强，一直做到排名到前面才是SEO。 l SEO是网络营销的一部分，不是网站的全部。SEO是网络营销的一部分，网络营稍又是网站运营总体的一部分。你也可以通过很多其他形式对网站进行推广，SEO只是其中之一。网站推广好了，有了流量，也不意味着网站就运营好了，你还要有适当的赢利手段，还要有客户服务、后勤保障等一系列措施。 l SEO不是在网页上做手脚，SEO包括网页上和网页外的很多因素。如果有人认为SEO是在网站页面上做一些手脚就够了的话，那简直是“史前观念”（在网上也就是三四年前的观念）。现在的SEO已经发展到必须站在更高的角度来看，页面上做的一些改善已经变得越来越不重要了。现在要做的是关键词分析，发展好的内容，建立网站之间的关系，提高权威度，改善用户体验，融入社会化搜索等。 l SEO要遵循搜索引擎的原则，这个原则就是尽量让用户在网上得到他想要的东西。SEO是搜索引擎的朋友，而不是敌人。看看搜索引擎与SEO人员的积极沟通甚至提出很多建议，再想想为什么雅虎、MSN都在招聘SEO专业人士，你就知道搜索引擎并不排斥真正的SEO(不是打着SEO旗号的作弊），而是希望大家做SEO。SEO使网站更有可用性，更能方便用户找到需要的内容，这正是搜索引擎需要的。 l SEO是技能和方法，不是一个学科。SEO的技术含量从传统意义上来说是不高的，既不用微积分，也不用懂多少C++。但SEO必须综合很多因素才能做好，在某种意义上来说，SEO是技术和艺术的结合。 7.1.3 SEO有理论根据有读者曾在点石博客留评论问，我们所谈的SEO技巧是经验之谈或想当然还是有理论支持的？严格地说，真正的理论根据是没有的。 SEO研究的对象并不是自然界或人类社会客观存在的某件事物或某个现象，SEO所研究的只是某几家公司（搜索引擎们）所设立的规矩（算法），这个规矩没有什么客观性，他们完全可以改来改去，况且他们也确实每天改来改去。这就像我们猜测某个饭馆几点开门一样，有什么理论基础吗？谈不上。几点开门是老板主观规定的一件事情。老板定的时候自然有一定的根据，比如一般人们11点会饿，那就10点到11点之间开门。外人要凭空猜测到底是10点10分还是10点半时没有什么理论根据，只能是对老板心思的猜测 SEO技术也一样，是在综合很多信息后的猜测，所谓educated guess.宽泛一点说，我们所谈论的SEO技术和技巧当然是有一定的根据的，即便可能算不上理论根据。必须指出的是，这些根据只有很少一部分是可以被证实的，大部分技术在可以预见的未来恐怕都不能证实。那么我们所讨论的SEO技术都来自于什么地方呢？那些不能证实的根据包括哪些呢？ 1．搜索引擎公司内部透露出来的零星信息比如Google反垃圾组工程师Matt Cutts的博客，各搜索引擎官方代表在论坛回答其他会员的问题，搜索引擎公司的一些年报、汇报会、员工谈话。 Google，百度、雅虎等搜索引擎也都给站长们提供了网站质量指南作为参考，告诉大家网站怎样容易被收录，哪些会被惩罚等。不过这些信息大多比较笼统，只能让我们有一个原则性的认识。比如说一直都知道Google排名算法中有上百个因素，前几个月Google内部的人讲话透露，现在有200个以上的因素，我们就知道Google算法是在进步中的。但是这些因素是什么，就属于企业机密了。 2．统计和观察针对某个关键词排在前面的网站做统计，看哪些排名因素会是这个关键词或这个行业比较重要的。这时候一些SEO工具就发挥用处了，比如说查关键词密度，查外部链接等。我一般会比较前10个网页和第90100个网页的差别。这些统计是针对特定行业，特定关键词的，结果有参考意义，但不一定适用于其他网站。在对不同因素／变量做统计后还要考虑整体，不能给单一因素太高权重。 3.实验一般来说，SEO实验是在可控范围内下针对一个变量做改动，然后观察对排名的影响。比如说关键词的位置对网页排名到底有什么影响，可以通过生僻的关键词从两个不同网页的表现看出来。这两个网页的其他所有情况都一样，如链接、文字长短、关键词密度等，只是关键词一个在页头，一个在页尾。 4.大量阅读什么事都自己观察，自己计算，自己实验是不太可能的，所以需要看大量有关的论坛和博客。我数了一下我每天要看的博客，现在是100多个，再加上3-4个论坛。很多SEO专家都会把他们的心得和大家分享，这是非常值得重视的知识来源。 5．常识和逻辑虽然搜索引擎的具体排名算法我们不可能知道，但我们知道搜索引擎的根本目的是什么，那就是给用户提供最相关、最权威的信息。再加上一些其他的常识，有的时候就算没有其他辅助材料，也可以知道某项SEO技术是好是坏。原则上说，有助于用户的有用信息就是好的。最后强调一句，所有的SEO技术都能找出反例证明它不成立。做SEO的人看到的只是表象，内在的逻辑和原因无法知道。 7.1.4搜索引擎友好的网站设计假设我们从搜索引擎蜘蛛的角度去看待一个网页，在抓取、索引和排名的时候会遇到哪些问题呢？解决了这些问题的网站设计就是搜索引擎友好的。 1．搜索引擎蜘蛛能不能找到你的网页要让搜索引擎找到你的主页，就必须要有外部链接，在找到你的主页之后，还必须能找到你的更深的内容页。即要求有良好的网站结构，是符合逻辑的，扁平的，或是树状的。这些网页之间要有良好的链接结构，这些链接以文字链接最好，图像链接也可以，但是JavaScript链接、下拉菜单链接、Flash链接等则不妥，因为搜索引擎无法沿着链接找到更多网页。一般推荐网站需要有一个网站地图，把所有重要的部分和网页以文字链接列进去。如果网站比较大，网站地图还可以分成几个。网站的所有页面都要能从主页开始顺着链接找到，最好在三四次点击之内。 2.搜索引擎蜘蛛找到网页后能不能抓取网页网页的URL必须是可以被抓取的。如果网页是由数据库动态生成的，那么URL一般要改写成静态的，也就是去掉那些URL中问号参数之类的东西，也要去掉SessionID。技术上倒不是搜索引擎不能读取这种URL，但是为了避免陷入无限循环，搜索引擎蜘蛛通常要远离这类URL。还有如果你的网站整个是Flash文件，在读取内容上也有困难。虽然搜索引擎一直在努力解决读取Flash信息的问题，但目前为止还无法与文字网页相提并论。还要避免框架结构（frame）。网站刚出现的时候，框架结构风行一时，现在还有一些网站在用，这是搜索引擎蜘蛛的大敌。还有尽量去除不必要的搜索引擎不能读的东西，音频文件、图片、弹出窗口等。 3.搜索引擎蜘蛛抓取网页之后，怎样提炼有用信息．网页的HTML码必须优化，也就是格式标签占的比例越低越好，真正内容占的越多越好，整个文件越小越好。．把CSS、JavaScript等放在外部文件。．把关健词放在应该出现的地方。．检查网页对不同操作系统，不同浏览器的兼容性。．检查是否符合W3C标准。．只有搜索引擎能顺利找到你的所有网页，抓取这些网页并取出其中真正的有相关性的内容，这个网站才可以被视为是搜索引擎友好的。 7.1.5搜索引擎优化要素在关键词确定后，SEO工作可以分成四个方面。 1．网站内优化网站内优化的工作包括所有在网站上可以控制的因素，比如网站大小、网站结构、内部导航、标题标签、关键词标签、文件大小、URL静态化、目录和文件的命名、关键词在网页出现的位置、关键词是否出现在H1或H2，是否有黑体斜体、文案写作、词干技术、内部链接及链接文字、图片ALT属性、导出链接、代码精简等。 2．网站外优化网站外优化主要指外部链接的情况。比如外部链接数目和质量，来自哪种域名，链接页和网站的内容相关性，链接文字是否有关键词，链接文字的多样性，链接存在的时间长短，链接本身及链接文字随时间的变化，交叉链接和交换链接的比例等。 3.域名及信任度与域名和整个网站的信任度有关的因素，比如：．域名年龄、域名注册时间。．域名所有人和历史记录的变化。．域名和网站与哪些其他网站的关联性。．由很多未知因素所组成的域名信任度。 4.用户行为模式衡量用户是否喜欢你的网站，主要因素如下：．网页在搜索结果中的点击率。．用户浏览网站的页数、时间。．是否加入书签。．是否有其他社会性搜索的标签、网摘、书签。．用户是否多次返回网站。．搜索引擎编辑人工调整等。 7.1.6网站设计与SEO 绝大部分SEO客户第一次找我时都会说，我的域名是什么什么，可不可以帮我们看一下为什么在搜索引擎里都找不到我们的网站？如果你帮我们优化需要多长时间？费用大概是多少？我想其他做SEO的人遇到的客户也都是这样开始的吧。非常遗憾的是，对这些客户我首先要说的是，不用看你的网站，我就知道你己经犯了一个很大的错误，那就是你们怎么这个时候才来找我给你们优化网站呢？你们应该在还没有设计网站之前就找SEO人员呀！这是一件没办法的事，99％的人都在网站运行一段时间后，流量却没什么大的进步时，才想起是不是需要推广，才考虑SEO或其他网站推广手段。很少有人在设计网站之前就把搜索引擎优化及网络营销作为整个网站规划的有机组成部分。如果能在网站还没设计，内容还没开始写作的时候就找SEO专业人员参与，那么整个SEO所要花的时间、精力、金钱都能节省很多，效率也更高。大家经常看到电子商务网站是用很流行的购物车系统建成的，可惜大部分现成的购物车系统都不太考虑搜索引擎友好问题，网址里面会夹杂着大量的问号、参数、Session ID等。虽然搜索引擎抓取能力在不断提高中，对这类URL也可以抓取不少，但毕竟效果不如静态URL好。如果网站权重低的话，很可能这些产品网页都不能被收录。如果在网站筹划阶段就有SEO专业人员参与的话，这个问题并不难解决，每个SEO人员都肯定会提醒设计和编程人员注意这一点的。如果网站己经建好再来优化，可能要重写或修改程序，而且可能会造成复制网页。如果你的网站已经建好，因为SEO或其他原因想重新设计，从SEO角度要注意几个地方。 1．不到不得已，就不要重新设计英文有一句谚语：If it's not broken，don't fix it（东西没坏，就别去修它）。网站重新设计尤其如此。如果你的网站没有严重错误，在搜索引擎排名表现也尚可的话，不要轻易对网站进行大面积改动，可以慢慢进行局部的优化。在网站排名结果不算太差的情况下进行重新设计，常常不能达到想要的效果。 2.网站URL千万不要改动这是网站重新设计中最重要的问题。千万不要改动网站原有的URL，也就是不要动目录名、文件名。增加新的栏目和内容可以，对老的栏目、网页内容进行修改时不要动URL，否则新的URL会被当做新的网页，整个网站的收录网页数可能会下降很多，新的网页又要经过一段时间才能被重新收录。外部链接也失去原有的作用。 3.增加新网页速度不要太快增加高质量的，对用户有用的内容是关键，但也要注意增加栏目和网页的速度，要进行适当控制。关键是新网页数与整个网站的比例。如果你的网站目前是1000页，那么在几天内增加50页，可能不是问题。但如果突然又增加1000页，就可能被怀疑是垃圾。连微软网站突然改变博客URL也被认为是新增加大量网页，也出现了很多问题。小网站就更可能产生负面影响。 4.网页的优化速度也要控制最好不要突然之间把每个网页都进行SEO。比如突然之间网页标题、链接文字，使得关键词足够优化。这种大幅改动，尤其是朝向优化的改动，往往效果适得其反。建议把需要优化的地方慢慢加进去。 5. 301转向如果必须做URL变动，应该把旧的URL做301转向到新的URL。这些旧的URL还会在搜索引擎的数据库中维持很长一段时间，在搜索结果中也还会出现旧的URL。无论对搜索引擎还是对用户来说，做301转向到新的地址，都是必要的。301转向对己有的链接传递PR也有好处。 7.1.7 SEO步骤 SEO过程中的大部分内容在后面几节都有所触及，先做一个概括描述，便于读者整体理解。．首先要进行关键词研究，找到那些搜索量大、竞争小的关键词，做好主要关词键和长尾关键词的分配。．在动手设计网站之前，要先想好网站应该有哪些内容，具体栏目事先要规划好，对网页内容也应该事先有所规划。．在设计网站的时候，要确保网站的结构合理。URL静态化，二级域名及目录要事先想好。．网站设计上也应该有一定的可扩充性。．在每一个具体网页设计的时候，要注意把关键词自然地放在应该放的地方。．网站内容的写作也要考虑词干技术和语义分析。．寻找一个稳定的主机服务商，开通网站。最好在一开通的时候网站就已经有一定的规模。．网站开通后，要开始进行外部链接的建立。链接不仅需要量，更需要质。链接文字也要有所变化。链接增加速度要进行控制。．别作弊。 SEO的总原则是自然和平衡。一般来说，新域名会在Google沙盒里面待上几个月，甚至长达一年。这段时间要仔细观察网站流量统计，一方面看在百度雅虎的收录情况及排名，一方面从流量统计中发现更多的关键词扩充内容。网站在沙盒的这段时间，可以持续地增加网站的内容，网站扩充不要太快。网站在各个搜索引擎都有一定的排名后，需要再观察与排在最前面的网站之间有什么差别。搜索引擎排名算法都不停地变动，需要留意并及时对SEO策略进行调整。 7.2搜索引擎喜欢什么样的网站要把网站搜索排名提高，就得研究搜索引擎喜欢什么样的网站。其实说到底，搜索引擎喜欢的网站也就是用户喜欢的网站。 7.2.1网站的相关性、权威性、实用性大部分关于SEO的文章容易聚焦在细节问题上，包括我自己的SEO博客。探讨细节问题，容易让初学者知道从哪里下手来优化网站。但有时候当你掌握了这些技术细节后，需要跳出来，从宏观上看，到底什么样的网站才是搜索引擎喜欢的，在排名中有优势。一个网站要想被搜索引擎喜欢并出现在排名的前列，必须要有相关性、权威性、实用性。 1．网站内容的相关性也就是用户搜索的关键词与网页内容是否匹配，是否有相关性。相关性的加强可以通过页面内优化和一小部分链接优化来达到的，包括页面内的关键词位置布局、关键词的强调、通过语义分析得到的相关性、内部链接的安排、网页标题等。外部链接锚文字，以及链接页的内容，也会对目标网页的相关性产生影响。内容相关性是做网站的人最容易控制的，也是最容易被作弊的。第一代的搜索引擎就主要以相关性做判断，但在被钻空子钻得一塌糊涂后，不得不引入权威性的衡量。 2.网站及网页的权威性网站或网页的权威性，大部分是由外部链接所决定的。高质量的外部链接越多，网站或网页本身的权威性就越高。另外，域名注册历史，网站的稳定性，隐私权政策等一些细节，也会影响网站的权威性。另外要注意的是，外部链接对网站权威性的影响是有选择性的，也就是说，来自相关内容网站的链接对提高权威性帮助最大，不相关内容的链接帮助很小。比如，在SEO博客首页上加一个链接到某个美食网站，对对方的权威性几乎没什么帮助。因为很明显，在SEO行业再权威的SEO博客在美食方面也没有什么权威性。网站的权威性不能被做网站的人完全控制，要想作弊，比较费时费力，群发链接现在也越来越容易被检测出来。在某种程度上，权威性还是可以被操作，无论是花钱还是花时间，都可以得到更多的人为链接，所以现在搜索引擎开始考虑网站的实用性。 3.网站的实用性即对用户来说，你的网站到底有多大用处？用户是不是喜欢你的网站？如果用户在你的网站花的时间多，浏览页数多，在不同的时间经常来看你的网站，加入了浏览器书签，并且在不同的网上书签站加了评论，这些都可以帮助搜索引擎理解你的网站对用户的实用性。搜索引擎的工具条可以帮助收集这类信息，也可以利用越来越多的社会网络网站收集信息。网站的实用性想作弊就更难，因为你没办法控制用户的计算机和用户的行为方式。虽然并不是完全没有可能控制大量用户，不过如果你的网站在相关性、权威性、实用性上都很出色，还都是作弊得来的，这可能性就很低了。 7.2.2内容是SEO的第一要素很多人在谈到SEO的时候，通常会关注于具体技巧，却忽略SEO最重要的因素，那就是内容、内容、内容。不是抄袭来的内容，不是转载的内容，也不是垃圾内容，而是大量的、高质量的、原创的、相关的内容。可以这么说，没有内容就没有排名。为什么这么说呢？第一，所有的网站运营者、设计师和网络营销人员，都应该首先理解一个事实，那就是你不是搜索引擎的客户，搜索引擎不会义务给你带来流量。到搜索引擎上去搜索信息的那些用户才是搜索引擎的客户，搜索引擎的宗旨是服务他们，让他们满意。这些用户一般并不是在找产品和服务，更没有在找你的公司。他们找的是能解决他们自身问题的信息。我在给我太太解释这一点的时候举了一个例子。比如说，你要去网上找回锅肉怎么做，到搜索引擎上搜“回锅肉”，如果某个网站介绍了回锅肉的做法，你就会去看，然后还可能看看这个网站上其他菜的做法。如果这个网站刚巧还在卖菜谱，其中有些菜是在其他网站没介绍的，看起来又特诱人，你就有可能买这本菜谱。这才是一个网站向客户销售产品和服务的最好过程，也就是给访客提供解决其问题的有用的信息。在访客浏览你的网站过程中，建立信誉，顺便让他发现你的产品。当访客需要的时候，他就有可能买你的产品或服务。站在搜索引擎的立场上，你公司的产品或服务多好多伟大，一点儿意义都没有。搜索引擎要的是好的高质量的内容来解决搜索引擎客户的问题。按照这个逻辑，你就需要建立大量的、有用的而又围绕着你的产品和服务的内容。一些SEO客户没办法理解这一点。有的客户会要求排名服务，可是坚持他的网站只维持五页：主页、联系我们、关于我们、董事长的话、我们的宗旨。可能这五页内容对你很重要，对搜索引擎和用户来说，毫无用处。这种对搜索引擎用户毫无意义的网页凭什么会被排名到前面呢？第二，有了大量的内容，你才能够在客户的心里建立良好的信誉和权威的地位。还用上面的例子，如果我太太按照网站介绍的方法做出了好吃的回锅肉，又做出了好吃的牛肉干，很自然地，这个网站所销售的菜谱也会有吸引力，因为你已经证明了你的信息和产品是有用的。没有前面的大量内容做铺垫，你就没有机会向客户证明这一点。电子商务和真实世界的商务的重大区别之一是：网站是冷冰冰的，看不见、摸不到。你没办法通过商店的规模、装潢、销售人员的笑脸等来建立信任，你就必须通过其他方式消除信任障碍。第三，有了大量的内容，其他站长才会自动地链接到你的网站。很难想象一个站长会连到一个卖菜谱的网上书店却毫无所求。他链接你，要么为了赚取回扣，要么为了给他自己的网站用户提供做菜的方法。你的网站没有大量的内容，其他人干嘛要链接向你呢？所以在优化一个网站的时候，最重要的不是关键词密度，不是网页标题、标签，更不是你的网站好看不好看。最重要的是大量原创有价值的内容。只有在这个基础上，才能谈到其他具体的排名技巧。如果有好内容就行，那和没有SEO有什么区别？网站内容和技术性优化是并行的，都是必要的。光有网站内容而没有技术性优化，比如说网页不搜索引擎友好，那么可能这些内容压根就不能被收录，也就很难排名了。光有技术性的优化，没有内容也难达到好的排名。所以内容、网页优化、链接都是SEO的必要条件，但都不是充分条件。在实际网站设计和优化过程中，技术性优化应该成为本能。在写网页标题、网页内容、标签、安排网站结构时，有经验的SEO人员并不会想很多优化的细节，因为该怎么做都已经变成了本能，对任何单一的元素都不会很执著。发展网站内容才是一个更费时、更费力的工作。我觉得从比例上来说，在两三年前，内容占SEO的20%，页面优化占30％，链接工作占50％。但现在这个比例已经有了很大的变化，我感觉内容至少要占到40％~50％，页面优化所占的比例有了很大的下降。 7.3域名主机和SEO 7.3.1域名与SEO 著名的站长世界论坛(）曾经有一个帖子引起了热烈的讨论，帖子是由论坛的一个资深版主pageoneresults发出的，有比较高的参考价值。帖子标题是：被信任的顶级域名。 pageoneresults的观点是：.edu和.gov域名（也就是教育机构和政府组织的域名）属于被信任的顶级域名，有更高的重要性，因而来自这两种域名的链接也有更大的权重，对搜索引擎排名的影响也更大。 Google在2003年12月31日曾经提交过一份专利申请，美国专利申请20050071741号。2005年3月31日，这份文件在美国专利局的网站上公布。Google这份专利申请的标题是：基于历史数据的信息检索（Information retrieval based on historical data）。在这份专利申请中Google提到了非常多的可以用于搜索引擎排名的因素，主要都和文件的历史数据有关。在这份专利申请的第38条Google提到：在给文件打分的时候，会考虑与文件所联系的域名是否合法有效。在第28款也有提到，链接的重要性可以基于链接发出文件是否是被信任的？含有链接的文件本身的权威性怎样？含有链接的文件的新鲜度怎样？这份专利申请还在其他几个地方提到和信任度的关系，也有提到域名、服务器的信任度等。那么哪些域名是可以被信任的呢？pageoneresults认为.edu和.gov域名具有天生的被信任的特征。原因是.edu和.gov域名在任何情况下都不可以被转移，包括以买卖、出租等任何形式的转移。.edu域名只可以被教育机构注册，.gov域名只可以由政府机构注册。pageoneresults认为，这些特点使.edu和.gov域名最有可能被认为是可被信任的顶级域名。当然很多人会有另外的考虑，比如说，是不是因为域名是.edu或.gov就意味着网页质量高呢？很多大学为老师和学生提供免费网页空间，怎么保证这些学生的网页都是高质量的呢？虽然这些网页有可能是放在很著名的大学的域名上。再比如，如果.edu或.gov域名具有更高的可信任度，那么其他国家的教育机关和政府机关域名又怎么处理呢？也给予同样的信任度吗？那可能会是一场灾难，因为网页质量更难以控制。但如果不给予同样的信任度，那么来自英国、澳大利亚、中国等地方的著名大学的链接难道就会比美国一个末流大学的链接重要性更低？这也不公平。有很多大学生在他们大学的个人网站上出卖链接，搜索引擎怎样去辨别哪些来自.edu的链接是自然的还是买卖的呢？来自大学或政府网站的链接很可能并不意味着相关性。一个研究天文的大学教授在他的学校网页上链接到一个谈厨艺的网站，这个链接应该给予更大的权重吗？ pageoneresults也给予了很有逻辑性的回答。这种来自.edu或.gov域名链接的重要性是一个概率统计结果。也就是说，.edu和.gov网站平均来看，质量确实要比.com、.biz、.info等要高。搜索引擎排名的重要根据之一就是大量统计基础上的结果。既然总体来说，来自.edu和.gov的网页内容质量更高，更有权威性，那么很有可能来自这些网页的链接也有更大的权重。个人的感觉是，.edu和.gov的链接确实有更大的权重。当然这只是基于观察的一些经验，并没有什么确实的证据。除了.edu和.gov域名可能被列为被信任的域名外，与域名有关的一些其他因素也可能会影响搜索引擎排名。很多人都知道，Google在2005年2月正式申请成为域名注册顶级服务商。这不是大家随处可见的那种域名注册代理，而是顶级域名注册服务商。百度也是CN域名注册商。几年过去了，Google并没有正式提供域名注册服务。而且Google曾经说过，他们成为域名注册商，并不是为了给用户提供域名注册服务，而是为了提高搜索排名质量。很显然，域名注册信息如果还没有成为Google排名因素之一，至少Google有计划那么做。大部分人都认为，Google实际上己经把域名注册信息考虑在排名当中了。很多人认为，作为顶级域名注册服务商，Google能获得我们普通用户所得不到的信息。实际上这是个误解。Google所能获得的域名注册信息和我们做Whois搜索所得到的信息是一样的。Google并没办法获得其他域名注册服务商客户的真实资料。比如说，很多人用假名字、假地址注册域名。我们做Whois搜索所看到的有可能就是假名字，Google所能得到的也只是这个假名字。只有给这个域名提供注册服务的提供商才知道客户真正的名字、电子邮件地址、信用卡号等。当然Google成为域名注册服务商必然有它的原因。那就是Google可以用程序接口来大量获取和处理域名注册信息。一切以程序来处理的Google，当然不可能用人工去查域名注册信息。成为顶级域名注册商就有了程序接口，Google可以快速大量地建立域名注册信息数据库。我相信Google已经建立了关于域名的庞大数据库。它们会记录、跟踪和分析的信息可能包括域名所有人的姓名、电子邮件地址、通讯地址、域名有效期、域名最新更改日期、域名拥有人是否曾经改变、什么时候改变、域名服务器的改变历史，等等。这些信息对搜索引擎排名有什么意义呢？举几个可能的影响例子。比如，域名有效期越长，搜索引擎可能给予的域名信任度越高。一般来说，大公司的域名一注册就是十年，他们不可能为了省一年几美元而承担忘记续费的后果。而很多黑帽SEO正相反，一般都只注册一年，赚一些快钱，等他们的域名被封了，也就不再用了。再比如，有很多人希望通过购买旧的域名来克服“Google沙盒效应”，但是很有可能如果在域名临近过期的时候，域名所有人姓名、地址、电子邮件改变了的话，Google会意识到域名己经易手了，先前域名的信任度、外部链接、PR等都会归零。所以很多人建议，如果你买了一个旧的域名，不要马上把所有域名注册信息都改掉，要一项一项地改，慢慢地改。再比如，有不少人因为想保护隐私而使用域名注册服务商提供的匿名注册服务，也就是查不到真正域名拥有人的姓名。这虽然保护了隐私，但也可能有风险。一些人其实就是为了不让搜索引擎知道这些域名都是属于同一个人而使用匿名注册。Google可能会降低这类域名的信任度，尤其是当多个相关域名都有类似可疑点的时候。 7.3.2怎样做出一个被信任的域名近几年，域名信任度在搜索引擎排名算法中所占比重很大。很多时候，大型、信任度高的网站内页能占据很多关键词排名，而且毫不费力。域名信任度威力最明显的就是维基百科在Google的排名。给予域名信任度这么大权重，Google是为了对付垃圾网站。这个逻辑的前提是，已经获得信任的网站通常都洁身自好，不会有质量太差的内容。做垃圾网站的都是图短平快，不会花时间把垃圾站做成一个信任度高的网站。这固然有它的道理，但副作用现在也越来越明显。一些人靠在域名信任度高的大网站上创建一个内容页，就能取得好排名。这种例子在一些竞争度很强，黑帽聚集的关键词中很常见。无论如何不管好处还是坏处，这是一个事实，我们做网站的就只能去适应。我感觉域名信任度最主要的是下面这几个因素。（1）来自其他信任度高的网站的链接 Google关于TrustRank（信任级别）的最初解释是，人工选出信任度最高的一批种子网站，估计指的是雅虎、纽约时报、维基百科等这些显而易见的高质量网站，然后根据这些高质量网站链接到哪些其他网站，找出次一级的被信任域名。也就是说，如果你的域名从雅虎、纽约时报等域名得到链接，那么你的域名就获得了第二级信任度。依此类推，第二级信任域名又能带出一批第三级，第三级又连向第四级。离核心越远，信任度越低。这个概念有点类似于Google PR值，．都是以链接为标志，但它不是PR值。最核心的被信任的网站只有100多个。它们都是人工选出来的，不是按PR值衡量的。这个域名信任度不是按页面计算，而是按域名计算。所以域名信任度并不是取决于链接的数目，尤其不是垃圾链接的数目，而是链接的质量。（2）域名历史这包括域名最初注册时间，以及第一次被Google抓取到页面的时间。很显然，注册越早的域名，被信任度越高。这很简单，也很有效。如果你有一个注册已有十年的域名，那是一个威力强大的武器。如果你有一个注册了15年的域名，不管拿它来做什么，很可能无坚不摧。我自己拥有的最老的域名也只有6年而己。这也就是为什么我虽然不满意SEO每天一帖所在的域名，但我并不打算换。因为就算是两三年的历史也是新域名无法获得的，这是不可重复的资源。（3）网站内容是否原创及更新情况最核心的100多个被信任的域名挑选是人工所为。我们可以想象对内容原创性要求一定是占很大比重，而且这些网站一定都是经常更新的。算法可以被糊弄，人可没办法糊弄，尤其是这么重要的事情。很难想象有采集站会被看做信任度高的网站。至少在网站开始时必须是以原创为主。获得了一定的信任度之后，再加入一部分转载内容无伤大雅。除了这三个最主要因素，当然还有一些影响域名信任度的细节如：．网站要有隐私权政策。．提供完整的联系方法，包括电话和真正通讯地址。．在没有大量高质量内容之前，至少也要把网站做到40-50页以上。．链接向几个同行业内的权威性网站。．把域名多注册几年，而不是每年续费。．域名的Whois数据和网站上的联系方式吻合。．使用独立IP地址。绝大部分网站都是在虚拟主机上，共用一个IP地址。不过有的人建议，独立IP地址是高质童网站的一个标志，这也很符合逻辑。不过Matt Cutts曾经说过，不用担心这一点。．网站上没有或很少有死链接，404错误等。．服务器反应快速，减少宕机时间。这一点应该不会直接影响排名，除非你宕机一个星期，不然搜索引擎蜘蛛会过几天再来抓取你的网页。不过一个也符合逻辑的推断是，如果你的网站宕机时间太多，说明你对这个网站并不认真，质量也不会高。．网页HTML代码经过W3C验证，至少减少严重代码错误。同样，Matt Cutts也说过：不用担心这一点，大部分网站都有代码错误。这些都可能是很小的因素。但是加起来有可能有一点影响。很容易改的东西为什么不做呢？域名信任度这么重要，那新站不是就不要活了？当然不是。除了域名历史我们无能为力之外，链接和内容都是我们可以努力的。不过要做成一个被用户和搜索引擎信任的域名，没有捷径，只有踏踏实实做好内容。经常看到有人在论坛问，排名怎么就是做不上去？怎么才能和大网站大品牌竞争？依目前Google的算法（我相信百度、雅虎也同样考虑域名信任度因素），新网站确实没有和老网站、大网站、信任度高的网站竞争的机会。但这不意味着永远没有扒会，站长要做的就是坚持原创，坚持提供对用户有益的内容，持之以恒，必将有效果。有时候朋友问，已经做站几个月了，为什么排名还是上不去？我实在不知道说什么好。如果是一个竞争小的词，那可能是做站有问题。如果是竞争不弱的行业，问问自己，凭什么一个几个月的网站就应该排到前面？每个站都是从新从小开始的。我的SEO每天一帖虽然是小站，而且这个博客也没有什么刻意优化，但在SEO领域算有一定的域名信任度，与SEO相关的一些词总能在搜索引擎里找到我博客的一些帖子。今天这个域名所具有的一定信任度是两年以来400篇原创帖子带来的，除了四川地震时转载过一篇关于地震的帖子，其他每一篇都是我辛辛苦苦写出来的，绝对原创。坚持原创，坚持积累，过一段时间，网站会有一个质的飞跃。或者换个角度说，富的更富，穷的更穷。有了信任度，内页就更容易得到排名，看到的人就更多，得到的链接也多，信任度就更高

展开阅读全文