使用Robots对WordPress站点进行优化的方法

使用Robots对WordPress站点进行优化的方法

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站可以通过Robots协议来告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站可以通过Robots协议来告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。

现在做网站的新手有很多,大多都不知道Rotots对网站的重要性。下面说下如何使用Robots.txt文件对WordPress站点就行优化。

搜索引擎在进行访问和抓取我们网站的时候,是先会对网站根目录中的Robots.txt文件进行读取,然后根据站长在Robots中制定的规则进行抓取。如果网站跟目录中没有Robots.txt文件,搜索引擎在爬行之后会在服务器中返回一个404的错误代码,从而加大对于服务器的负担。所以Robots.txt对于网站来说是非常重要的。
WordPress-robots

查看网站robots.txt可以通过浏览器浏览http://*你的域名*/robots.txt进行查看

WordPress在默认情况下Robots.txt内容如下

  1. User-agent: *
  2. Disallow: /wp-admin/
  3. Disallow: /wp-includes/

 

上面的Robots内容对于WordPress来说还是远远不够的,下面是相对比较完整的Robots.txt内容。

  1. Sitemap:http://域名/sitemap.xml
  2. Sitemap:http://域名/sitemap.html
  3. User-agent: *
  4. Disallow: /wp-admin/
  5. Disallow: /wp-content/
  6. Disallow: /wp-includes/
  7. Disallow: /*/comment-page-*
  8. Disallow: /*?replytocom=*
  9. Disallow: /category/*/page/
  10. Disallow: /tag/*/page/
  11. Disallow: /*/trackback
  12. Disallow: /feed
  13. Disallow: /*/feed
  14. Disallow: /comments/feed
  15. Disallow: /?s=*
  16. Disallow: /*/?s=*\

 

上面内容各项的作用

1.User-agent: *

允许所有搜索引擎爬行抓取

2.Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/

用于告诉搜索引擎不要抓取WordPress后台程序文件页面。

3.Disallow: /*/comment-page-*和Disallow: /*?replytocom=*

禁止搜索引擎抓取WordPress评论分页等相关链接。

4.Disallow: /category/*/page/和Disallow: /tag/*/page/

禁止搜索引擎抓取收录WordPress的分类和标签的分页。

5.Disallow: /*/trackback

禁止搜索引擎抓取收录WordPress的trackback以及垃圾信息

6.Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed

禁止搜索引擎抓取和收录WordPress的feed链接,feed只用来订阅本站,搜索引擎抓取了也无用。

7.Disallow: /?s=*和Disallow: /*/?s=*\

禁止搜索引擎抓取百度站内搜索结果

8.Disallow: /attachment/

禁止搜索引擎抓取WordPress附件页面,比如毫无意义的图片附件页面。

 

0

评论0

请各位登录会员密码加强!最好是数字+大小写字母+符号组合 心愿单
没有账号? 注册  忘记密码?

社交账号快速登录