很多建站新手对robots.txt文件的重要作用不是很清楚,利用这篇文章普及一下WordPress站点robots.txt文件编写知识。
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录所有页面。另外,当搜索蜘蛛发现不存在robots.txt文件时,会产生一个404错误日志在服务器上,从而增加服务器的负担,因此为站点添加一个robots.txt文件还是很重要的。
知道Robots协议的作用后,下面具体说一下WordPress站点如何编写robots.txt文件。
WordPress站点默认在浏览器中输入:http://你的域名/robots.txt,会显示如下内容:
- User-agent: *
- Disallow: /wp-admin/
- Disallow: /wp-includes/
这是由WordPress自动生成的,意思是告诉搜索引擎不要抓取后台程序文件。
但这是远远不够的,比较完整的WordPress站点robots.txt文件内容如下:
- User-agent: *
- Disallow: /wp-admin/
- Disallow: /wp-content/
- Disallow: /wp-includes/
- Disallow: /*/comment-page-*
- Disallow: /*?replytocom=*
- Disallow: /category/*/page/
- Disallow: /tag/*/page/
- Disallow: /*/trackback
- Disallow: /feed
- Disallow: /*/feed
- Disallow: /comments/feed
- Disallow: /?s=*
- Disallow: /*/?s=*\
- Disallow: /*?*
- Disallow: /attachment/
使用方法:新建一个名称为robots.txt文本文件,将上面的内容放进去,然后上传到网站根目录即可。
下面分别解释一下各项的作用:
1、Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/
用于告诉搜索引擎不要抓取后台程序文件页面。
2、Disallow: /*/comment-page-*和Disallow: /*?replytocom=*
禁止搜索引擎抓取评论分页等相关链接。
3、Disallow: /category/*/page/和Disallow: /tag/*/page/
禁止搜索引擎抓取收录分类和标签的分页。
4、Disallow: /*/trackback
禁止搜索引擎抓取收录trackback等垃圾信息
5、Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed
禁止搜索引擎抓取收录feed链接,feed只用于订阅本站,与搜索引擎无关。
6、Disallow: /?s=*和Disallow: /*/?s=*\
禁止搜索引擎抓取站内搜索结果
7、Disallow: /*?*
禁止搜索抓取动态页面
8、Disallow: /attachment/
禁止搜索引擎抓取附件页面,比如毫无意义的图片附件页面。
上面只是些基本的写法,当然还有很多,不过够用了。
本站文章大部分为原创,用于个人学习记录,可能对您有所帮助,仅供参考!
黑龙江省哈尔滨市 1F
学习了!正好我还没有,拿来用用。谢了!
辽宁省大连市 B1
@ 过客 写的不错,学习了,robots设置属于网站的基础优化范畴,基础优化有很多个需要注意的地方,
有需要的大家可以交流一下。
贵州省贵阳市小河区 2F
不错,我博客启用了新的主题就是你的,很好,谢谢
广东省深圳市 3F
支持一下!
浙江省杭州市 4F
交换友链 http://huanglv.me/p 消灭星星
江苏省南京市 5F
哈哈 支持 鸟哥 今天我提问的
很全面 我已经上传了
湖南省邵阳市 6F
请教一个跟主题并不相干的问题,也是没地方问这类问题,博主多才,这个可能不难解决。这是我在别人网站看的效果。像图片里,可以隐藏几个字,一点击,就显示出来了。这个是什么代码控制的呢,大大?wordpress中如何实现呢?如有空暇,望能解答,非常感谢![img]http://i2.tietuku.com/4d6f4bbc1be9f5ff.png[/img]
中国 B1
@ 脑精 只是简单的网页JS应用,比如这个页面
http://zmingcx.com/wordpress-theme-ality.html
湖南省邵阳市 B2
@ 知更鸟 对的对的,那样的已经很好了。我问了一个博主,说可以付费给我弄。也没说多少钱,或许是拿来主义惯了,我还没去找他。呵呵,能分享吗?谢谢了
湖南省邵阳市 B2
@ 知更鸟 问了两天度娘,奔走了无数家博主家。隐藏效果终于是出来了,不过问题又出来新的了。那就是如果内容少,隐藏的内容就会在摘要中显示。我的主题刚好还是手工摘要无效的,所以,我中间再插了一段话。也是逼得没办法了。呵呵,只有先将就着用,到时再看能不能解决好了
广西南宁市 7F
我平时也就只有几个,没想到这里有这么全面的,拿走了,谢谢分享
山西省大同市 8F
之前看有说需要禁止抓取动态URL的,需要设置吗?
广东省广州市 9F
如果把sitemap添加进rebots.txt的话就更加完整了!
江苏省苏州市 10F
攒钱买鸟哥的新主题,嘿嘿! 发现买的D8大前端越来月不好看了。
湖南省邵阳市 B1
@ Win7en乐园 这个是通病,没折腾的主题都漂亮。呵呵,不过鸟哥这主题是算cms吧?适合自己的就好,我也很次都把精力花在折腾上,内容倒是没那么积极。
江苏省无锡市 11F
不错。
湖南省邵阳市 12F
刚用上了,刚发现,留言竟然说了这么多不相干的,呵呵,感谢鸟哥大量了。我的不知道是什么原来来的,ftp登陆上去,没有robots文件,但是直接域名后加上鸟哥给的链接,也出来了robots页面,里面也有内容,不过没有鸟哥上面的这么详细。我就新建了一个给换了。
广东省深圳市 13F
这个robot会不会导致image不被收录呢?image是放在wp-content里的,要不要再加一行允许wp-content/upload/ ?
安徽省芜湖市 14F
学习了,暂时没写ROBOTS文件
广东省深圳市 15F
不错,网站比较干净~~
吉林省长春市 16F
博主的文章专业、精致,希望与博主交换友链,本人不胜感激!
云南省大理州 17F
robots.txt中的设置信息确实很重要,对搜索引擎尤其重要。
浙江省台州市 18F
鸟哥,还得请教个问题,hotnews主题,我换了域名后,所有头像都是裂了,哪里还需要改下?
中国 B1
@ Kael 这个与主题无关,参阅:http://zmingcx.com/replace-gravatar-server.html
浙江省台州市 B2
@ 知更鸟 感谢鸟哥指点~
河南省焦作市 19F
学习啦!
广东省湛江市 20F
robots.txt的用法真不错
北京市 21F
robots.txt的用法真不错
泰国 22F
谢谢分享,持续关注。
河北省衡水市 23F
不错 已经用上了。。。。。。。。。
浙江省杭州市 24F
谁知道如何设置弹窗的下载链接呢
广东省广州市天河区 25F
feed页面是有用的~
广东省广州市天河区 26F
虽然不收录
安徽省合肥市 27F
您好, 你博客文章怎么让他显示标题命名.html 呢
四川省成都市 28F
很全,基本上也就这些了,其他的看自己的在添加就行了
广东省清远市 29F
BT搜搜 http://www.btsoso.org 如果有站点地图的话加上更好。
山东省青岛市 30F
喜欢拿来主义
云南省大理州 31F
现在很多站点都使用MU来创建,其中有些网站不想让搜索引擎搜索,这个如何设置?
广西桂林市 32F
为啥我输入域名加robots.txt没有这个文件呢
广东省深圳市 33F
谢谢鸟哥分享。。
浙江省金华市 34F
这个东西找了很久,终于见到了,下载保存试试看
广东省广州市白云区 35F
这个确实写的非常详细,很有用!
山西省大同市 36F
动态网页用禁止吗现在
江苏省苏州市 37F
图片页要给屏蔽掉吗?
河南省 38F
请问一下,如果博客的预览页面(比如我写了一篇博客,在发布之前我会在预览的页面打开看看是否有些地方需要调整)总是被抓取该怎么解决呢?总是看到这个预览页面非蜘蛛抓取,然后正式的文章发布出去的时候,再去看被抓取的页面的时候就会出现404页面了,求指导,谢谢!
北京市 39F
图片都是哪找到的 好清晰 好创意
河南省郑州市 40F
不错。又来学习了。。
湖北省武汉市 41F
我的robots文件看来得修改一下了。
河北省唐山市 42F
感谢分享。
河南省平顶山市 43F
很不错,已经用上了,
江苏省苏州市 44F
我就是那类不知道robots文件如何用的人,现在明白了。
北京市 45F
我的还没写robots文件。明天要写上了
广西桂林市雁山区 B1
@ 热腾吧 想当初因为自己对WordPress程序不熟悉,为了尽可能拟写好这个robots.txt文本文件,那可是查找了很多资料和不断思索才最终搞定。感兴趣的朋友可以去参考下我的博客是怎么写的,大家多多交流、共同进步。
四川省成都市 46F
建议文章标题参考之前的主题看看
江苏省 47F
不错,正愁这个呢!!!!
广东省广州市 48F
用上了,谢谢
浙江省杭州市 49F
用上了,谢谢http://www.lzyhll.com
广东省广州市 50F
感谢知更鸟无私的分享,对于我来说太有用了!
广东省东莞市 51F
robots金典教程,大家圈起来,考试要考
湖北省武汉市 52F
呵呵,简单实用的!谢谢博主!
陕西省西安市 53F
刚试了一下发现我的robots.txt这个文件里多了个:Allow: /wp-admin/admin-ajax.php,这个ms是搞错了吧,抓取后台的文件了?
浙江省杭州市 B1
@ 驴行路上乐悠悠 是的 没错
浙江省杭州市 54F
受教了,刚好用上,谢谢分享。
湖北省武汉市 55F
用上了,总结的不错,再写一个sitemap就更好了!
www.weimeitupian.com
广东省东莞市 56F
很好,不过要注意的是,百度的可以用utf8编码 谷歌的会报错, 谷歌要保存成ANSI编码的
上海市徐汇区 57F
我想问下您的代码高亮是用的是那个插件???谢谢!
浙江省湖州市 58F
呵呵哈哈哈机甲
广东省佛山市 59F
屏蔽了各种蜘蛛还是乱抓取。。。
陕西省西安市 60F
谢谢博主啊,我直接拿来用了!在你博客学到好多东西,感谢!
浙江省宁波市 61F
用上了,谢谢http://www.lyy928.com
陕西省西安市 62F
苟富贵升大概桂丰大厦
陕西省西安市 63F
谢谢博主,已经上传啦
陕西省西安市 64F
学习了,自己的博客站正好用上。www.meibaseo.com
陕西省西安市 65F
阿里云负载突然100%,现在又好了,是不是有爬虫在爬啊
江苏省苏州市 66F
感谢博主,已经用上http://fulia.net
河南省郑州市 67F
很实用每次都来复制下
浙江省杭州市 68F
学习了
陕西省西安市 69F
鸟哥牛逼!学就完事了。
安徽省六安市 70F
这个不错,感谢!
https://www.bengtian.club
山东省潍坊市 71F
楼主分享的不错,已经用到了,www.wfcool.com
来自外部的引用