如何识别Baiduspider的真假,判断真实蜘蛛爬虫
在网站日志中,我们经常可以看到很多蜘蛛爬虫来访问我们的网站,其中就包括搜索引擎,例如国内最常见的baiduspider。以百度baiduspider为例,通常我们通过User-Agent判断。但是User-Agent是可以模拟的,所以很多时候也会有虚假的模拟伪装成百度蜘蛛来抓取,这时候我们就需要学会分辨真伪。
User-Agent伪装参考:https://zhangnq.com/2289.html,https://zhangnq.com/2241.html
百度的User-Agent
百度pc端的爬虫UA:
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
百度移动端的爬虫UA:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
如何识别Baiduspider
1、首先看日志中是否包含Baiduspider;
2、想区分pc端和移动端,再判断是否包含Mobile、Android或iPhone字样;
3、检查IP地址是否是真的Baiduspider;
如何检查IP是否是Baiduspider
Windows
点击“开始”菜单 -> 点击“运行” -> 弹出cmd窗口 -> 输入“nslookup 要查询的ip地址”,按回车键,就会有结果输出。回车后的结果如果包含x x.baidu.com 或x x.baidu.jp 这两种格式,就说明是真的baiduspider。
Linux
liunx使用的命令是“host 要查询的ip地址”,其判断逻辑与windows系统一样。
也可以使用一下本站提供的检查工具,支持百度baiduspider,谷歌googlebot,bingbot和360spider等搜索引擎蜘蛛的真假识别。
网址:http://tool.sijitao.net/network/spider/check
搜索引擎真假蜘蛛爬虫识别就到这里,有需要可以把服务器上假的搜索引擎蜘蛛屏蔽掉了。