阿萌的程序小屋

萌物控重度患者与您一起畅游技术与梦想的世界

WordPress博客论如何编写robots.txt更利于优化

robots.txt是每个站点不可缺少的一个文件,它的作用是告诉蜘蛛文件,服务器上什么文件是可以被查看的,一个好的robots.txt更有利于站点的优化。

先来简单的介绍下robots协议的写法:
User-agent:*
User-agent这里定义针对的搜索引擎种类,*是一个通配符,代表全部。
Disallow:/admin/
Disallow定义的是禁止爬寻的目录,/admin/表示根目录下的admin文件夹。
Allow: /cgi-bin/
Allow定义的是允许爬寻的目录。/cgi-bin/表示根目录下的cgi-bin文件夹。
Sitemap:网站地图,这里顾名思义就是填写站点地图的路径。

基本上rotots.txt文件就是由上面四个语句组成。

理论上,如果你的站点文件全部都需要抓取的话,直接Allow:/就可以了,但是现在类似CMS之类系统的发展,不同的站点或后台程序都需要不同的robots.txt,好的robots.txt有利于优化。

一般wordpress站点的robots.txt一般情况下是这样编写就可以了:

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Sitemap:网站地图

但是要是深入点优化,就不只是那么简单了,而且也并不一定能面面俱到,下面是我从网上各大网站上总结的,大家可以按自己理解来选择禁用哪些部分。
注:有些文件夹没有是很正常的,只有开启功能的时候才会创建一些文件夹。

Disallow: /feed
Disallow: */feed
这个是网站的订阅文件,一般有RSS订阅功能优惠出现这个文件。

Disallow: /trackback
Disallow: */trackback
禁止收录trackback,这是网络日志应用工具,只要有人引用了你的文章链接后wordpress会通过此项功能互相通告,此项会导致网页出现重复页面的问题。如果关闭了此功能可以不禁用。

Disallow: /comments
Disallow: */comments
Disallow: /*?replytocom*
这里是禁止评论页面。

Disallow: /wp-content/plugins
禁止收录插件目录

Disallow: /wp-content/themes
禁止收录模板目录

Disallow: /wp-content/uploads
看个人喜好,如果希望网站的图片被收录,则可以去掉这条

Disallow: /wp-content/plugins/ 限制插件文件

Disallow: /wp-content/themes/ 限制模板文件

Disallow:/?s=*
Disallow:/*/?s=*
这个是禁止抓取站内搜索结果。

暂且收集到的在某些情况下有必要禁止抓取的位置就这些了,如果有朋友发现缺少什么,期望能够联系我改进,谢谢

如有朋友感觉我的博文或代码有问题,愿能给予我宝贵的意见!Thanks

另注:转载请随意,但请带上本文地址,万分感谢。

http://www.wangmengyu.cn/?p=392

这就是真的真的是传说中的公告牌的说~~
暂且努力发展中~~

性别:男  年龄:20岁
现居:江苏  南京  浦口区
标语:萌即是一切