搜索引擎是不是一个大的爬虫，为什么网站反爬虫，却能被搜索引擎爬到？

标签：

4条回答

2楼-- · 2020-03-31 16:17

让我联想起 bbc纪录片 <深网> , 京东又同名书深网Google搜不到的世界

0人赞添加讨论(0) 举报

3楼-- · 2020-03-31 16:27

是的。
让百度爬是故意的，增加曝光量嘛。当然也有一些比较私密的网站连同百度一起反，目的当然是保密。此类网站一般只能经内部人员介绍进入。大多不是什么正经网站。
其他爬虫爬取数据基本为了自己的私利，只会造成数据泄露或者服务器压力上升，当然要反。

0人赞添加讨论(0) 举报

4楼-- · 2020-03-31 16:33

百度就是一个很大的爬虫

0人赞添加讨论(0) 举报

5楼-- · 2020-03-31 16:35

反爬虫有几种：
1、通过协议，告诉搜索引擎，[请不要爬我的网站，谢谢。]，比如github不让百度爬但是让别人爬，百度就不爬了。这个和技术无关，你要是非要爬，也可以爬。

2、采用技术屏蔽，页面内容为动态生成且有权限要求，如你的qq空间，搜索引擎就爬不到，因为qq需要登录，并且需要好友关系验证，甚至你指定了部分好友可见等，搜索引擎自然无法爬到这些内容。

3、其他，如直接拒绝特定的请求，比如你某个IP定期抓你网页，直接拒绝访问。

当然，如果非要爬，还是能爬，毕竟人工能做到的，程序一样可以模拟，但这个没太大意义，除非你是有非法的目的。

0人赞添加讨论(0) 举报