搜索引擎优化常用方法.doc

资源描述

1、一、内链优化（一）意义内部链接是指同一网站域名下的内容页面之间互相链接。如频道、栏目、终极内容页之间的链接，乃至站内关键词之间的Tag链接都可以归类为内部链接，因此内部链接也称之为站内链接，对内部链接的优化其实就是对网站的站内链接的优化。其具体作用如下： 1. 加快网站收录。站点中网页间的互链有助于提高搜索引擎对网站的爬行索引效率及网站的收录。一个页面要被收录，首先要能够被搜索引擎的蜘蛛爬行到，蜘蛛的爬行轨迹是顺着一个链接到另一个链接，想让搜索引擎蜘蛛更好地爬行，一般都需要通过反向链接来引导，但是内页的爬行就需要良好的内部链接了，如不注意形成死链断链，蜘蛛就无从爬起，也就谈不上良好收录了。2

2、. 优化页面排名（当外链用）。良好的网站内部链接策略能推动网站的排名。在搜索引擎面前，一个链接就代表一张投票，外部链接就是网站之间的互相投票，而内部链接则代表了网站内的各页面互相投票。通过大量而适度的内部链接来支持某一个具体页面，有助于该内容页主题的集中，促使搜索引擎识别出哪些页面在你的网站中是重要的，进而推动该页面的排名。3. 加强PR传递。内部链接还有助于PR的传递，平均站内网页的权威度。内部链接也是被搜索引擎计算到“反向链接”的范围之内的，获得内部链接越多的页面通常获得的PR就会越高。4. 目录结构的作用。具有扁平化结构的网站更适于搜索引擎机器人爬行，从而能使网站在搜索引擎里有一个好的收

3、录表现。网站结构的扁平化主要取决于网站的物理结构和逻辑结构规划。一般来说访问用户通过少于4 次的点击数到达最终内容页面的网站结构是符合扁平化的要求的。（二）优化。1. 目录结构。清晰简短的目录结构和规范的命名有利于用户体验和网址传播，更是搜索引擎友好的体现。首先是目录访问的层次，即通过几层能够访问到最终页面，Google最好为三层。这样的结果便于搜索引擎索引。当网站目录层次大于三层时就要使用二级域名扩大级数，因为二级域名算独立网站，目录层次从当前二级域名算起。2. 目录和文件命名。根据关键字无所不在的原则，可以在目录名称和文件名称中使用到关键词。但如果是关键词组，则需要用分隔符分开。我们常用连

4、字符“-”和下划线“_”进行分隔，URL中还经常出现空格码“%20”。3. URL。URL是统一资源定位，即每个网页的网址，网站文件的目录结构直接体现于URL。3.1. 绝对URL和相对URL：绝对路径URL：使用完整的URL指向指定网页，如相对路径URL：使用自动的URL指向指定网页。3.2. 动态URL。目前很多网站都有数据库驱动生成的URL，即动态URL，往往表现为在URL中出现“?”、“= ”、“%”，以及“&”、“$”等字符。动态URL极不利于搜索引擎抓取网页，严重影响网站排名，通常是通过技术解决方案将动态URL转化成静态的URL形式。总的来说URL应该越短越好。由于URL中含有关键

5、字本身对排名提高帮助并不大，单纯为了增加关键字而额外建多一个带有关键字的子目录的做法已无意义，也是搜索引擎反感的。4. 导航结构。4.1. 主导航醒目清晰。主导航一般为一级目录，通过它们用户和蜘蛛程序都可以层层深入访问到网站所有重要内容。因此主栏目必须在网站首页第一屏的醒目位置体现，并最好采用文本链接而非图片。4.2. “面包屑型(Breadcrumbs)”路径。所谓“面包屑”是比喻用户通过主导航到目标网页的访问过程中的路径提示，使用户了解所处网站中的位置而不至于迷失“方向”。路径中的每个栏目最好添加链接。即使没有详细的路径来源，也至少应该在每个子页面提示回首页的链接，包括页面的LOGO作链接

6、。4.3. 首页突出重要内容。除了主栏目，还应该将次级目录中的重要内容以链接的方式在首页或其它子页中多次呈现，以突出重点。搜索引擎会对这种一站内多次出现的链接给予充分重视，对网页级别（PageRank）提高有很大帮助。4.4. 使用网站地图。网站地图（Site Map）是辅助导航的手段，多采用文本链接，以加快页面加载速度。尤其对于那些采用图片导航和动态技术生成的网页，通过在网站地图中进行文本链接，可在一定程度上弥补蜘蛛程序无法识别图片和动态网页造成的页面不可见的风险。注意，网站地图要突出重点，尽量给出主干性内容及链接，而非所有细枝末节。一页内不适宜放太多链接。Google明确提出“如果网站地图

7、上的链接超过大约100个，最好将网站地图拆成多个网页”。若页面太多可考虑使用前面讲到的二级域名扩展。这将是我们进行SEO的重点之一，后面将专门阐述。5. 框架结构。框架型网站的优越性体现在页面的整体一致性和更新方便上。但框架对搜索引擎来说是一个很大的问题，由于大多数搜索引擎都无法识别框架，也没有什么兴趣去抓取框架中的内容。此外，某些浏览器也不支持框架页面。如果网页已经使用了框架，或出于某种原因一定要使用框架结构，则必须在代码中使用“Noframes”标签进行优化，把Noframe标签看做是一个普通文本内容的主页。在区域中包含指向frame页的链接以及带有关键词的描述文本，同时在框架以外的区域也

8、出现关键词文本。这样搜索引擎才能够正确索引到框架内的信息。6. 图片优化。一般而言,搜索引擎只识读文本内容，对图片文件是视而不见的。同时，图像文件直接延缓页面加载时间，除非网站内容是图片为主，否则尽量避免使用大图片。网站图片优化需注意以下几点：a. 在保持图像质量的情况下尽量压缩图像的文件大小。b. Alt属性：每个图像标签中都有ALT属性，搜索引擎会读取该属性以了解图像的信息。因此，最好在所有插图的ALT属性中都有文字描述，并带上该页关键字在其中。c.在图片上方或下方加上包含关键词的描述文本；d.使用链接链接到这个图片7. FLASH 优化。Flash会使页面好看，但其有一个致命的问题，即很

9、多搜索引擎无法识别FLASH中的信息。FLASH优化可以从以下三个方面来考虑：a. 做一个辅助HTML版本：保留原有FLASH版本的同时，还可以设计一个HTML格式的版本，这样既可以保持动态美观效果，也可搜索引擎通过HTML版本的网页来发现网站。b. 将Flash内嵌HTML文件：可通过改变网页结构进行弥补，即不要将整个网页都设计成Flash动画，而是将Flash内容嵌入到HTML文件中，这样不会削弱视觉效果，搜索引擎也可从HTML代码中发现一些必要的信息，尤其是进入内容页面的链接。c. 404错误页设置：网页设计中，出现错误是常见的，但是错误页我们也需要将它制定一个缺省页，使它成为信息页，导

10、引访问者继续访问网站，而不要让它成为空白的“Sorry,你访问的网站不存在”。8. 网站结构的一致性。需重视网站结构一致性：网站的每个页面遵循一个主题，所以在格式设计上力求保持一致或者大体相仿，不同的格式和不稳定的网站结构会增加搜索引擎优化的工作量，也影响对优化结果的评估。9. W3C浏览器兼容验证。W3C浏览器兼容验证：网页是由HTML或XML语言写成的，虽然许多网站没有遵循W3C标准也获得很好的排名，但是经过验证后，网站能保证你的网的式样不会被浏览器改变，使得你网站的访问者看到的网页与你设计出来的完全一致。10. 内链建设的其它方面。10.1. 相关性：尊重用户的体验，注意链接的相关性，内

11、部链接不要太过泛滥。相关性高的链接有助于提高搜索引擎收录，且有助于提升用户体验，增加用户的黏性，进而提升网站的浏览量。10.2. 数量进行控制：每个页面的内部链接数量要有控制。如果页面中的内部链接数量超过限制，搜索引擎就可能会忽略该页面，或者忽略该页面中超出限制的那部分链接所指向的目标页面。通常一个页面的内部链接数要限制在100个以内。10.3. 锚文本多样化：锚文本单一合理自然的原则，显得太刻意。正确的做法应该是在锚文本多样化的前提下，适当保持某一个锚文本的出现频率。10.4. 链接层次：链接不单是链向首页、频道、子目录，同时还需要链向内页等其他页面。二、使用Sitemaps文件1. Sit

12、eMap文件。Sitemaps协议使你能够告知搜索引擎网站中可供抓取的网址。Sitemaps就是列有某个网站所有网址的XML文件。此协议可高度扩展，因此可适用于各种大小的网站。它还能够使网站管理员提供有关每个网址的其他信息（上次更新的时间、更改的频率、与网站中其他网址相比它的重要性等），以便搜索引擎可以更智能地抓取该网站。Sitemaps 在用户无法通过可浏览界面访问网站的所有区域时作用尤其明显，通常指用户无法通过追踪链接访问网站的特定页面或区域，如那些只能通过搜索表单才能访问其中某些页面的网站，都会从创建Sitemaps并将其提交到搜索引擎中获益。请注意 Sitemaps 协议补充而不是取代

13、搜索引擎已用来发现网址的基于抓取的机制。通过向搜索引擎提交一个Sitemaps（或多个 Sitemaps），可帮助搜索引擎更好地抓取您的网站。其原因如下：1.1.SiteMap文件有利于收录。Sitemaps文件的使用将有利于搜索引擎更加友好的对网站进行收录，以免收录有些漏洞或收录不全。1.2. Sitemaps文件的适用范围。有了SiteMap并提交给搜索引擎之后，方便你在以后进行下一步的工作，比如对网站的外部链接和内链错误进行更好的调整，这些都要用到SiteMap 的提交功能。如你的网站属于下列情况，那么使用SiteMap会特别实用：a. 网站含动态内容。b. 网站有不容易被发现的页面，如

14、有大量富 AJAX 或 Flash 内容的页面。c. 网站为新网站且指向网站的链接不多。d. 网站有大量内容页存档，这些内容页相互没有很好地链接或根本就没有链接。2. Sitemaps 文件的位置。Sitemaps文件的位置决定该Sitemaps中所能包含的一组网址。位于的Sitemaps文件可包含以开始的任何网址。被认定为无效的网址将不再考虑。建议将Sitemaps放置在Web服务器的根目录处。如Web服务器位于，则Sitemaps索引文件应位于3. XML Sitemaps 格式。3.1. Sitemaps协议格式。该协议格式由XML标记组成。Sitemaps的所有数据数值应为实体转义

15、过的。文件本身应为 UTF-8 编码。以下是只包含一个网址并使用所有可选标记的 Sitemaps示例。可选标记为斜体。Sitemaps 应以开始标记开始，以结束标记结束。每个网址包含一个作为父标记的条目。每一个父标记包括一个子标记条目。3.2. XML标记定义。必填封装此文件并提供当前协议标准作为参考。必填每个网址条目有一个父标记。剩余标记为此标记的子标记。必填该页的网址。如果Web服务器需要网址的话，此网址应以协议开始（如http）并以斜线结尾。此值应少于2048个字符。可选该文件上次修改的日期。此日期应采用 W3C Datetime 格式。如果需要的话，此格式允

16、许省略时间部分，而仅使用 YYYY-MM-DD。可选页面可能发生更改的频率。此值为搜索引擎提供一般性信息，可能与搜索引擎抓取页面的频率不完全相关。有效值为： always hourly daily weekly monthly yearly never值“always”应当用于描述每次访问时都会改变的文档。而值“never”应当用于描述已存档网址。请注意此标记的值被视为提示而不是命令。尽管搜索引擎抓取工具在做决定时考虑此信息，但是它们对标记为“hourly”页面的抓取频率可能低于每小时一次，而对标记为“yearly”页面的抓取频率可能高于每年一次。抓取工具也可能定期抓取标记为“never”

17、的页面，以便它们能够处理对这些页面的意外更改。可选，此网址的优先级与您网站上其他网址的优先级相关。有效值范围从 0.0到 1.0，默认为 0.5。此值不影响该网页与其他网站上网页的比较结果，只是告诉搜索引擎该网站那个网页最重要。请注意，为页面指定的优先级不影响网址在搜索引擎的结果页的排名。搜索引擎在同一网站的不同网址之间进行选择时使用此信息，因此可以使用此标记来增加相对重要的网址在搜索索引中显示的可能性。优先级是相互关联的，只用于网站本身的网页之间进行选择，不会与其他网站的页面优先级进行比较。3.3. 实体转义。我们要求Sitemaps文件为 UTF-8 编码（通常在保存文件时可以做到）。对于

18、所有的XML文件，任何数据数值（包括网址）都应对下表中列出的字符使用实体转义码。此外，所有的网址（包括网站的Sitemaps的网址）都应编码，以便它们所在的以及网址转义的Web服务器识别。然而，如果您使用任何脚本、工具或日志文件来生成网址（除了手动输入之外的任何方法），通常这部分已经自动完成了。如果提交了Sitemaps却收到Google无法找到某些网址的错误消息，则需查看并确保相应网址遵循RFC-3986 URI标准、RFC-3987IRI标准以及XML标准。3. 创建SiteMap。如果有多个网站，可以创建一个或多个Sitemap将所有经过验证网站的网址包含其中，然后将这些Sitemap保

19、存在一个位置，以此来简化Sitemap的创建和提交过程。可以通过以下多种方式创建 Sitemap：3.1 根据 Sitemap 协议创建 Sitemap。a. 创建一个文本文件并将其带 .xml 扩展名保存。b. 将以下内容添加到文件顶部：c. 将以下内容添加到文件底部： d. 为各网址创建一个条目。为必需，其余标记为可选。e. 将Sitemap上传到您的网站。然后使用网站管理员工具将其提交给Google。3.2. Sitemap 生成器。如可访问网络服务器且服务器装有Python，则可以利用我们的脚本来创建采用Sitemap协议的Sitemap。Google Sitemap 生成器（后面的

20、章节介绍）是一个 Python脚本，可以使用 Sitemap 协议为网站创建Sitemap。此脚本可以通过网址列表、网络服务器目录或通过访问日志创建 Sitemap。要使用此脚本：a. 需要连接到我们的网络服务器，并在上面运行脚本。b. 网络服务器需安装 Python 2.2 或更高版本。c. 需知道启动Python的命令。该命令通常为python，但可能会因安装不同而异。如网络服务器安装了两种版本的Python，命令python可调用较早的版本，而python2则可调用较晚的版本。d. 需知道指向网站的目录路径。如网络服务器托管一个网站，路径可能是var/www/html等。如拥有一个托管多

21、个网站的虚拟服务器，路径可能是home/virtual/site1/fst/var/www/html等。e. 您需要能够将文件上传到自己的网络服务器（例如，使用 FTP）。f. 如果您要根据访问日志生成一个网址列表，则需要了解用于这些日志的编码，以及指向它们的完整路径。Sitemap生成器可以用于生成常规XML Sitemap。但一些特殊种类的Sitemap（如代码搜索和视频Sitemap）有非常独特的要求。因此最好不要使用Sitemap生成器来创建这些 Sitemap。3.3 使用第三方工具。很多第三方提供了可用于创建有效的 Sitemap 的工具。4. 使用 Sitemaps 索引文件。可

22、提供多个Sitemaps文件，但提供的每个Sitemaps文件包括的网址不得超过50,000 个，并且未压缩时不能大于10MB。如果要列出超过50,000个网址则需创建多个Sitemaps文件。如预计Sitemaps网址数量会超过50,000个或大小超过10MB，应考虑创建多个Sitemaps文件。多个Sitemaps可列在Sitemaps索引文件中，该索引文件只能列出不超过1,000个Sitemaps。a. Sitemaps索引文件的XML格式与Sitemaps文件格式非常相似。该索引文件使用的XML标记有：loc，lastmod，sitemap，sitemapindex。与XML文件中的所

23、有值一样，Sitemaps网址需要实体换码。Sitemaps索引XML标记定义需有标记并用其来识别Sitemaps的位置。标记是可选标记，用于指示相应 Sitemap文件的修改时间。它并不对应于该Sitemap中列出的任一网页的更改时间。lastmod 标记的值应采用 W3C Datetime格式。通过提供最近修改的时间戳启用搜索引擎抓取工具，抓取工具将只检索索引中的Sitemaps 的一个子集，也就是说，抓取工具只检索某特定日期之后修改的 Sitemaps。通过这一递增的 Sitemaps 提取机制，可以快速发现超大型网站上的新网址。标记封装单个 Sitemaps 的相关信息。标记会

24、压缩有关文件中的所有 Sitemaps 的信息。5. 验证Sitemaps。Google使用XML架构定义可出现在Sitemaps文件中的元素和属性。可从以下链接下载此架构：有多种工具可帮助验证Sitemaps结构。下面的每一个位置都可以找到XML相关的工具列表：http:/www.w3.org/XML/Schema#Tools为了根据某个架构验证Sitemaps或Sitemaps索引文件，XML文件需要有附加的标头。如使用的是Sitemaps生成器，这些标头已经包含其中。6. 提交SiteMap。SiteMap制作完成以后直接传到空间上（只要传到网络上，能访问就行），然后再向各个搜索网站提交

25、。向Google 提交网站地图Sitemap: 通过管理提交；向百度提交网站地图Sitemap: 现百度不支持Sitemap。可通过来提交相应网址。百度自行搜索，更新速度很快。三、使用Robots.txt文件1.Robots.txt文件的意义与作用。robots.txt是一个纯文本文件，通过在这个文件中声明该网站中不想被robots访问的部分，这样，该网站的部分或全部内容就可不被搜索引擎收录了，或指定搜索引擎只收录指定的内容。当一个搜索机器人访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如找到，搜索机器人就会按照该文件中的内容来确定访问的范围，如果该文件不存在，那

26、么搜索机器人就沿着链接抓取。robots.txt文件必须放置在一个站点的根目录下，并且文件名必须全部小写。如果当spider访问一个网站（比如）的时候，会首先检查该网站中是否存在这个文件，如Spider找到这个文件，它就会根据文件的内容，来确定它访问权限的范围。2. robots.txt的语法格式。“robots.txt”文件包含一条或更多的记录，这些记录通过空行分开（以CR，CR/NL, orNL作为结束符），每一条记录的格式如下所示：“:”。在该文件中可以使用#进行注解，具体使用方法和UNIX 中的惯例一样。该文件中的记录通常以一行或多行User-agent 开始，后面加上若干Disal

27、low行。2.1. User-agent。在robots.txt文件中，如果有多条User-agent记录说明有多个robot会受到robots.txt的限制，对该文件来说，至少要有一条User-agent 记录。如果该项的值设为*，则对任何robot均有效，在robots.txt文件中，User-agent:*这样的记录只能有一条。如在robots.txt文件中加入User-agent:SomeBot和若干Disallow、Allow行，那么SomeBot只受到User-agent:SomeBot后面的Disallow 和Allow 行的限制。2.2. Disallow。这个值可以是一条完整

28、的路径，也可以是路径的非空前缀，以Disallow 项的值开头的URL 不会被robot访问。如Disallow:/help禁止robot访问/help.html、/helpabc.html、/help/index.html，而Disallow:/help/则允许robot 访问/help.html、/helpabc.html，不能访问/help/index.html。Disallow:说明允许robot访问该网站的所有url，在/robots.txt中至少要有一条Disallow记录。如果/robots.txt不存在或为空文件，则对于所有的搜索引擎robot，该网站都是开放的。要拦截整个网站

29、，请使用正斜扛：Disallow:/要拦截目录及其中的所有内容，请在目录名后添加正斜扛：Disallow:/private_directory/要拦截网页，请列出该网页：Disallow:/private_file.html2.3. Allow。与Disallow项相似，这个值是一条完整的路径或路径的前缀，以Allow项的值开头的URL是允许robot访问的。如Allow:/hibaidu允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu /com.html。一个网站的所有URL默认是Allow的，所以Allow通常与Disallow搭配使用，实现允

30、许访问一部分网页同时禁止访问其它所有URL的功能。注意Disallow与Allow行的顺序是有意义的，robot会根据第一个匹配成功的Allow或Disallow 行确定是否访问某个URL。2.4. 使用*匹配字符序列。可使用星号 (*) 来匹配字符序列。例如要拦截对所有以专用开头的子目录的访问，可使用下列条目：User-Agent:GooglebotDisallow:/专用*/要拦截对所有包含问号 (?) 的网址的访问，可使用下列条目：User-agent:*Disallow:/*?2.5. 使用$匹配网址的结束字符。可使用$字符指定与网址的结束字符进行匹配。如要拦截以 .asp 结尾的网址

31、，可使用：User-Agent:GooglebotDisallow:/*.asp$可将此模式匹配与Allow指令配合使用。例如，若 ? 表示一个会话 ID，则可排除所有包含该 ID 的网址，确保搜索引擎蜘蛛不会抓取重复的网页。但是，以 ? 结尾的网址可能是您要包含的网页版本。在此情况下，可对 robots.txt 文件进行如下设置：User-agent:*Allow:/*?$Disallow:/*?Disallow:/ *? 一行将拦截包含? 的网址（它将拦截任意域名开头、后接任意字符串，然后是问号 (?)，而后又是任意字符串的网址）。Allow: /*?$ 一行将允许包含任何以 ? 结尾的网

32、址（它将允许包含任意的域名开头、后接任意字符串，然后是问号 (?)，问号之后没有任何字符的网址）。3. robots.txt 使用技巧。3.1.消除404错误。每当用户试图访问某个不存在的URL 时，服务器都会在日志中记录404错误（无法找到文件）。每当搜索蜘蛛来寻找并不存在的robots.txt 文件时，服务器也将在日志中记录一条404错误，所以你应该在网站中添加一个robots.txt。3.2. 隔离抓取。网站管理员必须使蜘蛛程序远离某些服务器上的目录。比如大多数网站服务器都有程序储存在“cgi-bin”目录下，因此在 robots.txt 文件中加入“Disallow:/cgi-bin

33、”是个好主意，这样能够避免将所有程序文件被蜘蛛索引，可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有：后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。4. 为动态网页创建静态副本。为动态网页创建副本将会使搜索蜘蛛更容易抓取。那么需要在robots.txt文件里设置避免动态网页被索引，以保证这些网页不会被视为含重复内容。5. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样： Sitemap: http:/www.*.com/sitemap.xml目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask

34、 and MSN。中文搜索引擎公司暂不支持。这样站长不用到每个搜索引擎的站长工具去提交自己的sitemap文件，搜索引擎的蜘蛛自己就会抓取robots.txt文件，读取其中的sitemap路径，接着抓取其中相链接的网页。6. 使用robots.txt文件可避免访问出错。比如不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录，所以可在robots.txt文件里设置来阻止搜索者直接进入购物车页面。7. robots.txt 用法举例。7.1. 全部禁止。禁止所有搜索引擎访问网站的任何部分：User-agent: *Disallow: /7.2. 全部允许。允许所有的robot 访问：Use

35、r-agent: *Disallow:或者也可以建一个空文件 /robots.txt file7.3. 禁止所有搜索引擎访问网站的部分目录。如禁止所有搜索引擎访问cgi-bin、tmp、private 目录：User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /private/7.4. 禁止某个搜索引擎的访问。如禁止百度蜘蛛（Baiduspider）访问任何目录：User-agent: BaiduspiderDisallow: /7.5. 只允许某个搜索引擎的访问（下例中的Baiduspider）：User-agent: Baidu

36、spiderDisallow:User-agent: *Disallow: /7.6. 允许访问特定目录中的部分url：User-agent: *Allow: /cgi-bin/seeAllow: /tmp/hiAllow: /joe/lookDisallow: /cgi-bin/Disallow: /tmp/Disallow: /joe/7.7. 使用*限制访问url：ser-agent: *Disallow: /cgi-bin/*.htm禁止访问/cgi-bin/目录下的所有以.htm为后缀的URL(包含子目录)。7.8. 使用$限制访问url：User-agent: *Allow: .h

37、tm$Disallow: /仅允许访问以.htm为后缀的URL。7.9. 禁止访问网站中所有的动态页面：User-agent: *Disallow: /*?*7.10. 禁止 Baiduspider 抓取网站上所有图片User-agent: BaiduspiderDisallow: .jpg$Disallow: .jpeg$Disallow: .gif$Disallow: .png$Disallow: .bmp$仅允许抓取网页，禁止抓取任何图片。7.11. 仅允许Baiduspider 抓取网页和.gif 格式图片User-agent: BaiduspiderAllow: .gif$Disal

38、low: .jpg$8.常见robots.txt 错误。8.1. 顺序颠倒。错误写成：User-agent: *Disallow: GoogleBot正确的应该是：User-agent: GoogleBotDisallow: *8.2. 把多个禁止命令放在一行中。如错误写成：Disallow: /css/ /cgi-bin/ /images/正确的应该是：Disallow: /css/Disallow: /cgi-bin/Disallow: /images/8.3. 行前有大量空格。如错误写成：Disallow: /cgi-bin/尽管在标准没有谈到这个，但是这种方式很容易出问题。8.4. 4

39、04重定向。当Robot访问很多没有设置robots.txt文件的站点时，会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Htm页面文件。虽然一般没什么问题，但是最好能放一个空白的robots.txt 文件在站点根目录下。8.5. 采用大写。如错误写成：USER-AGENT: EXCITEDISALLOW:虽然标准是没有大小写的，但是目录和文件名应该小写。正确的应该是：user-agent:GoogleBotdisallow:8.6. 语法中只有Disallow，没有Allow。如错误写成：User-agent: Baiduspide

40、rDisallow: /john/allow: /jane/8.7. 忘记了斜杠/。忘记斜杠后错误写成：User-agent: BaiduspiderDisallow: css正确的应该是：User-agent: BaiduspiderDisallow: /css/四、其它优化措施1. 外链优化。需适当控制外链数量，提高外链质量（实际上最近的百度排名算法中已降低了对外链的权重）。2. 定时更新。鉴于百度的收录时间为早上7点至9点，下午5点至6点，晚上10点至12点，因此如网站存在定期更新的情况，建议在每天早上9点前完成更新，便于百度收录。3. 内容上尽量做到原创。关于网站的更新频率和更新数量，

41、建议网站的更新内容尽量都是原创（或伪原创），每天保持每个频道都能得到更新，有规律地去做。4. Head优化。Head是搜索引擎最先读取的部分，在SEO中非常重要。这一部分主要关注Meta标签的优化。重点是Title、Keywords和Description。4.1. Title标签。该部分不要堆砌太多关键词，控制在30个以内，同时注重长尾关键词（非目标关键词、但同样可以带来流量的关键词）的融合。关键词之间使用“|”或“，”隔开即可。4.2. Keywords。Keywords标签要求简练即可。4.3. Description。通常是布局网站关键词和长尾关键词的地方，可以对Title部分的关键词

42、进行详细的解析说明，相对Title标签也较少受到字数的限制，目前Google和百度都比较重视。五、SEO常用指令下面是一些常用的搜索引擎指令，进行SEO时可能会用到：1. site。用于确定某个特定的网站被搜索引擎收录的情况。如我们要确定好玩商城被百度的收录情况，可在百度的搜索框里输入“site: ”即可。2.cache。上一次搜索引擎收录某个特定网站的情况，输入某个页面即可发现蜘蛛最近收录的日期和版本，如在Google搜索框里输入“cache: ”。3. info。反映某个特定网站的收录信息，包括最近的cache，相似网页，站点链接，内部链接，等等，用法如下： info: 。4. link。某个特定网站的外部链接。这是一个获取排名和权重的重要因素。5. related。与某个网页特别相关的网页。如“related：”。6. allinurl or inurl。主要检索网页URL标题包含的特定内容。7. allintext。显示在文档中包含这些文字的所有网页。8. allinanchor or inanchor。在链接中包含指定anchor的所有网页。9. allintitle or intitle。网页标题中包含指定文字的所有网页。第 10 页共 10 页

展开阅读全文