我目前的团队开发的应用程序,它包括前端客户端的一部分。
通过这个客户端,我们发送的用户数据,每个用户都有一个用户ID,并通过一个RESTful API客户端会谈到我们的服务器请求数据的服务器。
例如,假设我们有一个图书数据库,用户可以得到最后的三本书的作者写道。 我们非常重视用户的时间,我们希望用户能够开始使用该产品而无需显式注册。
我们珍视我们的数据库,我们用自己的专有软件来填充它,并希望尽可能多的,我们可以保护它。
所以基本上,问题是:
我们可以做些什么来保护自己免受网页抓取?
我非常想了解一些技巧来保护我们的数据,我们想防止用户在笔者搜索面板输入的每一个作者的名字和打水列前三位每本书作者写道。
任何建议的阅读,将不胜感激。
我只是想提一下我们知道验证码的,想避免他们尽可能
为了防止这种情况的主要策略是:
- 需要注册,这样就可以限制每个用户的请求
- 验证码登记和非注册用户
- 速率限制IP地址
- 需要JavaScript的 - 写一个刮刀,可以读取JS更难
- 机器人阻断,和机器人检测(例如请求速率,隐藏链路陷阱)
- 数据中毒。 把书本,没有人会希望有联系,那摆摊下载机器人一味收集一切。
- 突变。 经常更改你的模板,从而使刮削器可能无法找到所需的内容。
请注意,您可以使用验证环节非常灵活。
例如:第一本书对每个IP每天是不可验证码保护。 但为了访问第二本书,一个验证码需要解决。
既然你发现许多由Anony - 摩丝列出的项目不解决您的问题,我想进来,并提出替代。 你有没有探讨了提供网页刮保护作为一项服务第三方平台? 我要列出一些解决方案的市场上,并尝试忍下在一起。 为了充分披露,我的联合创始人之一提炼网络 ,那我上市的公司之一。
网页抓取保护的核心竞争力:
网页抓取保护在一个更大的产品套件功能:
我的看法是,企业试图解决机器人问题作为一个功能不有效地把它做好。 它只是没有自己的核心竞争力,许多存在漏洞
- Akamai的科纳
- F5 ASM模块的负载均衡器BIGIP
- Imperva的Web应用防火墙设备
- Incapsula,Imperva的云Web应用防火墙
这也可能是有益的谈一些提到的问题的一些缺陷:
- 注册和非注册用户 的验证码 验证码 已被证明是ineefective由于OCR软件和验证码农场
- 速率限制IP地址 这可能有一个非常高的假阳性率,因为它背后的肿块共享IP的用户一起。 也可能错过很多机器人,如果他们只需旋转或annonomize他们所使用的IP
- 需要JavaScript的 硒,幻影和其他几十个刮工具支持JavaScript