搜索引擎是不是一个大的爬虫,为什么网站反爬虫,却能被搜索引擎爬到?

2020-03-31 16:03发布

搜索引擎是不是一个大的爬虫,为什么网站反爬虫,却能被搜索引擎爬到?

标签:
4条回答
【Aperson】
2楼-- · 2020-03-31 16:17

让我联想起 bbc纪录片 <深网>  , 京东又同名书 深网Google搜不到的世界

查看更多
Viruses.
3楼-- · 2020-03-31 16:27

是的。
让百度爬是故意的,增加曝光量嘛。当然也有一些比较私密的网站连同百度一起反,目的当然是保密。此类网站一般只能经内部人员介绍进入。大多不是什么正经网站。
其他爬虫爬取数据基本为了自己的私利,只会造成数据泄露或者服务器压力上升,当然要反。

查看更多
▲ chillily
4楼-- · 2020-03-31 16:33

百度就是一个很大的爬虫

查看更多
闹够了就滚
5楼-- · 2020-03-31 16:35

反爬虫有几种:
1、通过协议,告诉搜索引擎,[请不要爬我的网站,谢谢。],比如github不让百度爬但是让别人爬,百度就不爬了。这个和技术无关,你要是非要爬,也可以爬。

2、采用技术屏蔽,页面内容为动态生成且有权限要求,如你的qq空间,搜索引擎就爬不到,因为qq需要登录,并且需要好友关系验证,甚至你指定了部分好友可见等,搜索引擎自然无法爬到这些内容。

3、其他,如直接拒绝特定的请求,比如你某个IP定期抓你网页,直接拒绝访问。

当然,如果非要爬,还是能爬,毕竟人工能做到的,程序一样可以模拟,但这个没太大意义,除非你是有非法的目的。

查看更多
登录 后发表回答