【robots.txt】蜘蛛协议写法-酷唯三

【robots.txt】蜘蛛协议写法

的有关信息介绍如下：

【robots.txt】蜘蛛协议写法

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（RobotsExclusionProtocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。陈宝文提醒Robots文件名是不能改变的，文件必须放置在网站根目录才能生效，当搜索引擎来到网站第一个访问的页面就是robots文件。

User—Agent：定义搜索引擎类型（定义robots对哪个搜索引擎生效）

User—Agent：BaiduSpider（定义该协议只对百度搜索引擎生效）

User—Agent：*（定义该协议协议对所有搜索引擎生效）

Disallow：定义搜索引擎禁止抓取收录地址

Disallow：/（代表着整站禁止搜索引擎抓取，/代表着网站根目录），如果前期做了整站禁止搜索引擎抓取，后期蜘蛛将很长一段时间不会来网站进行抓取内容。

Disallow：/data/（代表着禁止蜘蛛抓取data目录后所有的页面）

Disallow：/d（代表着data文件后边的网页被屏蔽）

原因：/d和路径中出现的目录词是相匹配的的，所以都会被屏蔽掉

Disallow：/*？*屏蔽所有动态路径（动态链接中存在着？符号匹配）

Disallow：/*.js$（屏蔽所有js文件）

Allow：定义允许抓取收录地址

Allow：/seojishu/（代表着seojishu文件允许被抓取）

Disallow：/a/导致全站会被屏蔽，因为Disallow：/后边出现空格，建议写完robots在百度站长工具中效验一下是否有误。