您的位置首页百科问答

如何禁止浏览器爬虫

如何禁止浏览器爬虫

的有关信息介绍如下:

如何禁止浏览器爬虫

可以设置robots.txt来禁止网络爬虫来爬网站。方法:首先,你先建一个空白文本文档(记事本),然后命名为:robots.txt;

(1)禁止所有搜索引擎访问网站的任何部分。User-agent: *Disallow: /

(2)允许所有的robots访问,无任何限制。User-agent: *Disallow:或者User-agent: *Allow: /还可以建立一个空文件robots.txt或者不建立robots.txt。

(3)仅禁止某个搜索引擎的访问(例如:百度baiduspider)User-agent: BaiduSpiderDisallow:/

(4)允许某个搜索引擎的访问(还是百度)User-agent: BaiduSpiderDisallow:User-agent: *Disallow: /这里需要注意,如果你还需要允许谷歌bot,那么也是在“User-agent: *”前面加上,而不是在“User-agent: *”后面。

(5)禁止Spider访问特定目录和特定文件(图片、压缩文件)。User-agent: *Disallow: /AAA.net/Disallow: /admin/Disallow: .jpg$Disallow: .rar$这样写之后,所有搜索引擎都不会访问这2个目录。需要注意的是对每一个目录必须分开说明,而不要写出“Disallow:/AAA.net/ /admin/”。