很多建站新手对robots.txt文件的重要作用不是很清楚,利用这篇文章普及一下WordPress站点robots.txt文件编写知识。
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录所有页面。另外,当搜索蜘蛛发现不存在robots.txt文件时,会产生一个404错误日志在服务器上,从而增加服务器的负担,因此为站点添加一个robots.txt文件还是很重要的。
知道Robots协议的作用后,下面具体说一下WordPress站点如何编写robots.txt文件。
WordPress站点默认在浏览器中输入:http://你的域名/robots.txt,会显示如下内容:
- User-agent: *
- Disallow: /wp-admin/
- Disallow: /wp-includes/
这是由WordPress自动生成的,意思是告诉搜索引擎不要抓取后台程序文件。
但这是远远不够的,比较完整的WordPress站点robots.txt文件内容如下:
- User-agent: *
- Disallow: /wp-admin/
- Disallow: /wp-content/
- Disallow: /wp-includes/
- Disallow: /*/comment-page-*
- Disallow: /*?replytocom=*
- Disallow: /category/*/page/
- Disallow: /tag/*/page/
- Disallow: /*/trackback
- Disallow: /feed
- Disallow: /*/feed
- Disallow: /comments/feed
- Disallow: /?s=*
- Disallow: /*/?s=*\
- Disallow: /*?*
- Disallow: /attachment/
使用方法:新建一个名称为robots.txt文本文件,将上面的内容放进去,然后上传到网站根目录即可。
下面分别解释一下各项的作用:
1、Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/
用于告诉搜索引擎不要抓取后台程序文件页面。
2、Disallow: /*/comment-page-*和Disallow: /*?replytocom=*
禁止搜索引擎抓取评论分页等相关链接。
3、Disallow: /category/*/page/和Disallow: /tag/*/page/
禁止搜索引擎抓取收录分类和标签的分页。
4、Disallow: /*/trackback
禁止搜索引擎抓取收录trackback等垃圾信息
5、Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed
禁止搜索引擎抓取收录feed链接,feed只用于订阅本站,与搜索引擎无关。
6、Disallow: /?s=*和Disallow: /*/?s=*\
禁止搜索引擎抓取站内搜索结果
7、Disallow: /*?*
禁止搜索抓取动态页面
8、Disallow: /attachment/
禁止搜索引擎抓取附件页面,比如毫无意义的图片附件页面。
上面只是些基本的写法,当然还有很多,不过够用了。

2015年4月11日 12点00分 1F
学习了!正好我还没有,拿来用用。谢了!
2015年11月22日 22点59分 B1
@ 过客 写的不错,学习了,robots设置属于网站的基础优化范畴,基础优化有很多个需要注意的地方,
有需要的大家可以交流一下。
2015年4月11日 14点35分 2F
不错,我博客启用了新的主题就是你的,很好,谢谢
2015年4月11日 16点54分 3F
2015年4月11日 21点08分 4F
交换友链 http://huanglv.me/p 消灭星星
2015年4月11日 22点54分 5F
哈哈 支持 鸟哥 今天我提问的
很全面 我已经上传了
2015年4月12日 00点58分 6F
请教一个跟主题并不相干的问题,也是没地方问这类问题,博主多才,这个可能不难解决。这是我在别人网站看的效果。像图片里,可以隐藏几个字,一点击,就显示出来了。这个是什么代码控制的呢,大大?wordpress中如何实现呢?如有空暇,望能解答,非常感谢![img]http://i2.tietuku.com/4d6f4bbc1be9f5ff.png[/img]
2015年4月12日 22点34分 B1
@ 脑精 只是简单的网页JS应用,比如这个页面
https://zmingcx.com/wordpress-theme-ality.html
2015年4月13日 01点40分 B2
@ 知更鸟 对的对的,那样的已经很好了。我问了一个博主,说可以付费给我弄。也没说多少钱,或许是拿来主义惯了,我还没去找他。呵呵,能分享吗?谢谢了
2015年4月13日 20点07分 B2
@ 知更鸟 问了两天度娘,奔走了无数家博主家。隐藏效果终于是出来了,不过问题又出来新的了。那就是如果内容少,隐藏的内容就会在摘要中显示。我的主题刚好还是手工摘要无效的,所以,我中间再插了一段话。也是逼得没办法了。呵呵,只有先将就着用,到时再看能不能解决好了
2015年4月12日 12点55分 7F
我平时也就只有几个,没想到这里有这么全面的,拿走了,谢谢分享
2015年4月12日 15点08分 8F
之前看有说需要禁止抓取动态URL的,需要设置吗?
2015年4月12日 21点42分 9F
如果把sitemap添加进rebots.txt的话就更加完整了!
2015年4月13日 17点49分 10F
攒钱买鸟哥的新主题,嘿嘿! 发现买的D8大前端越来月不好看了。
2015年4月13日 20点04分 B1
@ Win7en乐园 这个是通病,没折腾的主题都漂亮。呵呵,不过鸟哥这主题是算cms吧?适合自己的就好,我也很次都把精力花在折腾上,内容倒是没那么积极。
2015年4月13日 19点06分 11F
不错。
2015年4月14日 12点48分 12F
刚用上了,刚发现,留言竟然说了这么多不相干的,呵呵,感谢鸟哥大量了。我的不知道是什么原来来的,ftp登陆上去,没有robots文件,但是直接域名后加上鸟哥给的链接,也出来了robots页面,里面也有内容,不过没有鸟哥上面的这么详细。我就新建了一个给换了。
2015年4月15日 16点24分 13F
这个robot会不会导致image不被收录呢?image是放在wp-content里的,要不要再加一行允许wp-content/upload/ ?
2015年4月16日 18点41分 14F
学习了,暂时没写ROBOTS文件
2015年4月17日 15点08分 15F
不错,网站比较干净~~
2015年4月17日 23点56分 16F
博主的文章专业、精致,希望与博主交换友链,本人不胜感激!
2015年4月18日 20点52分 17F
robots.txt中的设置信息确实很重要,对搜索引擎尤其重要。
2015年4月20日 10点41分 18F
鸟哥,还得请教个问题,hotnews主题,我换了域名后,所有头像都是裂了,哪里还需要改下?
2015年4月20日 12点31分 B1
@ Kael 这个与主题无关,参阅:https://zmingcx.com/replace-gravatar-server.html
2015年4月21日 08点13分 B2
@ 知更鸟 感谢鸟哥指点~
2015年4月20日 13点40分 19F
学习啦!
2015年4月21日 10点25分 20F
robots.txt的用法真不错
2015年4月21日 16点06分 21F
robots.txt的用法真不错
2015年4月21日 22点33分 22F
谢谢分享,持续关注。
2015年4月24日 19点04分 23F
不错 已经用上了。。。。。。。。。
2015年4月26日 09点31分 24F
谁知道如何设置弹窗的下载链接呢
2015年4月29日 20点29分 25F
feed页面是有用的~
2015年4月29日 20点29分 26F
虽然不收录
2015年4月30日 10点33分 27F
您好, 你博客文章怎么让他显示标题命名.html 呢
2015年5月1日 22点30分 28F
很全,基本上也就这些了,其他的看自己的在添加就行了
2015年5月5日 00点03分 29F
BT搜搜 http://www.btsoso.org 如果有站点地图的话加上更好。
2015年5月13日 22点36分 30F
喜欢拿来主义
2015年5月17日 08点48分 31F
现在很多站点都使用MU来创建,其中有些网站不想让搜索引擎搜索,这个如何设置?
2015年5月23日 23点35分 32F
为啥我输入域名加robots.txt没有这个文件呢
2015年5月26日 23点33分 33F
谢谢鸟哥分享。。
2015年6月1日 15点02分 34F
这个东西找了很久,终于见到了,下载保存试试看
2015年6月10日 00点17分 35F
这个确实写的非常详细,很有用!
2015年6月13日 10点43分 36F
动态网页用禁止吗现在
2015年6月19日 15点13分 37F
图片页要给屏蔽掉吗?
2015年6月27日 23点36分 38F
请问一下,如果博客的预览页面(比如我写了一篇博客,在发布之前我会在预览的页面打开看看是否有些地方需要调整)总是被抓取该怎么解决呢?总是看到这个预览页面非蜘蛛抓取,然后正式的文章发布出去的时候,再去看被抓取的页面的时候就会出现404页面了,求指导,谢谢!
2015年7月4日 15点25分 39F
图片都是哪找到的 好清晰 好创意
2015年7月11日 10点21分 40F
不错。又来学习了。。
2015年7月25日 11点17分 41F
我的robots文件看来得修改一下了。
2015年7月25日 22点56分 42F
感谢分享。
2015年8月21日 15点33分 43F
很不错,已经用上了,
2015年9月11日 15点20分 44F
我就是那类不知道robots文件如何用的人,现在明白了。
2015年10月7日 22点35分 45F
我的还没写robots文件。明天要写上了
2016年3月4日 18点03分 B1
@ 热腾吧
想当初因为自己对WordPress程序不熟悉,为了尽可能拟写好这个robots.txt文本文件,那可是查找了很多资料和不断思索才最终搞定。感兴趣的朋友可以去参考下我的博客是怎么写的,大家多多交流、共同进步。
2015年10月8日 01点44分 46F
建议文章标题参考之前的主题看看
2015年11月5日 20点21分 47F
不错,正愁这个呢!!!!
2015年11月13日 09点22分 48F
用上了,谢谢
2016年1月5日 11点38分 49F
用上了,谢谢http://www.lzyhll.com
2016年1月27日 22点20分 50F
感谢知更鸟无私的分享,对于我来说太有用了!
2016年4月8日 08点51分 51F
robots金典教程,大家圈起来,考试要考
2016年4月15日 15点14分 52F
呵呵,简单实用的!谢谢博主!
2016年5月18日 11点03分 53F
刚试了一下发现我的robots.txt这个文件里多了个:Allow: /wp-admin/admin-ajax.php,这个ms是搞错了吧,抓取后台的文件了?
2016年6月12日 21点30分 B1
@ 驴行路上乐悠悠 是的 没错
2016年8月20日 09点50分 54F
受教了,刚好用上,谢谢分享。
2016年9月21日 14点05分 55F
用上了,总结的不错,再写一个sitemap就更好了!
www.weimeitupian.com
2016年12月3日 17点53分 56F
很好,不过要注意的是,百度的可以用utf8编码 谷歌的会报错, 谷歌要保存成ANSI编码的
2016年12月5日 00点23分 57F
我想问下您的代码高亮是用的是那个插件???谢谢!
2017年1月22日 18点15分 58F
呵呵哈哈哈机甲
2017年3月3日 09点24分 59F
屏蔽了各种蜘蛛还是乱抓取。。。
2017年3月10日 00点14分 60F
谢谢博主啊,我直接拿来用了!在你博客学到好多东西,感谢!
2017年7月27日 20点04分 61F
用上了,谢谢http://www.lyy928.com
2017年8月16日 16点40分 62F
苟富贵升大概桂丰大厦
2017年12月5日 18点27分 63F
谢谢博主,已经上传啦
2018年4月26日 15点26分 64F
学习了,自己的博客站正好用上。www.meibaseo.com
2018年8月25日 22点55分 65F
阿里云负载突然100%,现在又好了,是不是有爬虫在爬啊
2018年10月8日 10点44分 66F
感谢博主,已经用上http://fulia.net
2018年11月21日 11点45分 67F
很实用每次都来复制下
2019年2月27日 10点12分 68F
学习了
2019年4月28日 14点11分 69F
鸟哥牛逼!学就完事了。
2020年8月7日 11点29分 70F
这个不错,感谢!
https://www.bengtian.club
2020年11月16日 13点21分 71F
楼主分享的不错,已经用到了,www.wfcool.com
来自外部的引用: 6