您的位置首页百科问答

【robots.txt】蜘蛛协议写法

【robots.txt】蜘蛛协议写法

的有关信息介绍如下:

【robots.txt】蜘蛛协议写法

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(RobotsExclusionProtocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。陈宝文提醒Robots文件名是不能改变的,文件必须放置在网站根目录才能生效,当搜索引擎来到网站第一个访问的页面就是robots文件。

User—Agent:定义搜索引擎类型(定义robots对哪个搜索引擎生效)

User—Agent:BaiduSpider(定义该协议只对百度搜索引擎生效)

User—Agent:*(定义该协议协议对所有搜索引擎生效)

Disallow:定义搜索引擎禁止抓取收录地址

Disallow:/(代表着整站禁止搜索引擎抓取,/代表着网站根目录),如果前期做了整站禁止搜索引擎抓取,后期蜘蛛将很长一段时间不会来网站进行抓取内容。

Disallow:/data/(代表着禁止蜘蛛抓取data目录后所有的页面)

Disallow:/d(代表着data文件后边的网页被屏蔽)

原因:/d和路径中出现的目录词是相匹配的的,所以都会被屏蔽掉

Disallow:/*?*屏蔽所有动态路径(动态链接中存在着?符号匹配)

Disallow:/*.js$(屏蔽所有js文件)

Allow:定义允许抓取收录地址

Allow:/seojishu/(代表着seojishu文件允许被抓取)

Disallow:/a/导致全站会被屏蔽,因为Disallow:/后边出现空格,建议写完robots在百度站长工具中效验一下是否有误。