如何禁止浏览器爬虫-酷唯三

如何禁止浏览器爬虫

的有关信息介绍如下：

如何禁止浏览器爬虫

可以设置robots.txt来禁止网络爬虫来爬网站。方法：首先，你先建一个空白文本文档（记事本），然后命名为：robots.txt；

（1）禁止所有搜索引擎访问网站的任何部分。User-agent: *Disallow: /

（2）允许所有的robots访问，无任何限制。User-agent: *Disallow:或者User-agent: *Allow: /还可以建立一个空文件robots.txt或者不建立robots.txt。

（3）仅禁止某个搜索引擎的访问（例如：百度baiduspider）User-agent: BaiduSpiderDisallow:/

（4）允许某个搜索引擎的访问（还是百度）User-agent: BaiduSpiderDisallow:User-agent: *Disallow: /这里需要注意，如果你还需要允许谷歌bot，那么也是在“User-agent: *”前面加上，而不是在“User-agent: *”后面。

（5）禁止Spider访问特定目录和特定文件（图片、压缩文件）。User-agent: *Disallow: /AAA.net/Disallow: /admin/Disallow: .jpg$Disallow: .rar$这样写之后，所有搜索引擎都不会访问这2个目录。需要注意的是对每一个目录必须分开说明，而不要写出“Disallow:/AAA.net/ /admin/”。