京喜购便宜吴歌博客:爱评论,爱网络,爱美女!Iwuge.Com!
当前位置: 首页 > Wordpress > 正文

WordPress博客robots.txt优化 规范写法实例

robots.txt是一个存放在网站根目录下的纯文本文件(ASCII编码),这个文件用于指定spider在您网站上的抓取范围,一定程度上保护站点的安全和隐私。同时也是网站优化利器,例如屏蔽捉取站点的重复内容页面。

robots.txt目前并不是一种标准,只是一种协议!所以现在很多搜索引擎对robots.txt里的指令参数都有不同的看待。

robots.txt是一个存放在网站根目录下的纯文本文件(ASCII编码,也是搜索引擎抓取网站的时候要查看的第一个文件。通过robots.txt文件内容可以指定spider程序在您网站上的抓取范围,保护站点的安全和隐私,同时能对网站收录进行优化,避免spider抓取站点的重复内容页面
robots.txt目前并不是一种标准,只是一种协议!所以现在很多搜索引擎对robots.txt里的指令参数都有不同的看待。

百度官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
语法:最简单的 robots.txt 文件使用两条规则:

· User-Agent: 适用下列规则的漫游器
· Disallow: 要拦截的网页
robots.txt文件的写法
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有的动态页面
Disallow: /jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片

我们可以根据自己的防止蜘蛛抓取,一般我们可能会禁止下面的路径:

Disallow: /page/
#限制抓取Wordpress分页
Disallow: /category/*/page/*
#限制抓取分类的分页
Disallow: /tag/
#限制抓取标签页面
Disallow: */trackback/
#限制抓取Trackback内容
Disallow: /category/*
#限制抓取所有分类列表

美客网赚圈现在的robots.txt

User-agent: *
Disallow: /wp-*
Disallow: /feed/
Disallow: /page/

Sitemap: http://www.iwuge.com/sitemap_baidu.xml
Sitemap: http://www.iwuge.com/sitemap.xml

特别注意 Disallow 与 Allow 行的顺序使某个文件夹中部分目录允许抓取

举例说明:
允许 spider 访问 /cgi-bin/ 目录下的包含 see 的文件夹或URL
User-agent: *
Allow: /cgi-bin/see
Disallow: /cgi-bin/

如果Allow 和 Disallow 的顺序调换一下:
User-agent: *
Disallow: /cgi-bin/
Allow: /cgi-bin/see

spider 就无法访问到 /cgi-bin/ 目录下的包含 see 的文件夹或URL,因为第一个 Disallow: /cgi-bin/ 已经匹配成功。

关于 Disallow 和 Allow 记录写法

Disallow 和 Allow 记录后面可以是一条完整的路径,也可以是路径的非空前缀。例如 “Disallow: /help” 禁止 spider 访问/help.html、/helpabc.html、/help/index.html;而 “Disallow:/help/” 则允许 spider 访问 /help.html、/helpabc.html,不能访问 /help/index.html。

名博的部分robots.txt代码实例
以下是月光博客的robots.txt代码,虽然月光博客使用的是Z-BLOG,但还是可以借鉴一下的:

#
# robots.txt for williamlong
# Version 4.0.0
#

User-agent: *

Disallow: /ads/
Disallow: /function/
Disallow: /FCKeditor/
Disallow: /CACHE/
Disallow: /SCRIPT/
Disallow: /ADMIN/
Disallow: /google/ADMIN/
Disallow: /google/CACHE/
Disallow: /google/function/
Disallow: /blog/function/
Disallow: /info/function/
Disallow: /anni/function/
Disallow: /wap.asp
Disallow: /cmd.asp
Disallow: /google/wap.asp
Disallow: /google/cmd.asp
Disallow: /blog/wap.asp
Disallow: /blog/cmd.asp
Disallow: /info/wap.asp
Disallow: /info/cmd.asp
Disallow: /anni/wap.asp
Disallow: /anni/cmd.asp

Sitemap: http://www.williamlong.info/sitemap.xml

乐思蜀博客wordpress robots.txt:

User-agent: *
Disallow: /?s=
Disallow: /wp-*
Allow: /wp-content/uploads/
Sitemap: http://www.lesishu.com/sitemap.xml

萧涵86博客wordpress robots.txt:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-content
Disallow: /wp-includes
Disallow: /tag
Disallow: /date
Disallow: */trackback
Disallow: /*?replytocom=
Disallow: /*?*
Disallow: */feed*
Disallow: */comment-page-*
Disallow: /author
Disallow: /guestbook
Disallow: /go
Disallow: /?r=*

以上仅供参考!

本文固定链接: http://www.iwuge.com/wordpress-robots.html | 吴歌博客

京东商城618购物狂欢节,61.8元买电器,拼啦!

该日志由 美客 于2012年03月07日发表在 Wordpress 分类下, 你可以发表评论,并在保留原文地址及作者的情况下引用到你的网站或博客。
原创文章转载请注明: WordPress博客robots.txt优化 规范写法实例 | 吴歌博客
关键字: ,

WordPress博客robots.txt优化 规范写法实例:目前有1 条留言

  1. wordpress博客没有默认的robots,反正模仿名博的没有错

    2012-03-08 12:27 [回复]

发表评论

快捷键:Ctrl+Enter