Robots.txt详解

时间：2017-07-23 17:18:24 阅读：254 评论：0 收藏：0 [点我收藏+]

Robots协议（爬虫协议、机器人协议）的全称是“网络爬虫排除标准”，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取；

优化蜘蛛爬行：

　　1、提高爬行效率

　　2、减少带宽消耗

　　3、防止双收录

如何在自己的网站设置robots.txt?

　　1、新建Robots.txt

　　2、编辑内容

　　3、上传到根目录

　　注意：Robots.txt文件名必须都是小写

　　　　　Robots.txt必须放到网站根目录

Robots.txt语法详解：

　　User-agent: Baiduspider

　　注意：在冒号后面，要加一个空格。否则不生效。

　　Disallow

　　Disallow: *?*

　　　　禁止搜索引擎收录动态的URL

　　Allow

　　Allow: .jpg$

　　　$ : 通配符，用来表示某一类型文件后缀

Robots.txt提交地图：

　　Sitemap:http://...

如何检测Robots.txt ?

　　网址：http://zhanzhang.baidu.com/robots/index

原文：http://www.cnblogs.com/chengshun/p/7225184.html

踩

(0)

评论一句话评论（0）

分享档案

更多>