与抓取网站内容的建议(Advice with crawling web site content)

2019-09-18 23:37发布

我试图抓取一些网站内容,使用jsoup和java结合。 保存相关细节到我的数据库和每日做同样的活动。

但这里是交易,我在浏览器中我得到呈现的HTML打开网站(与所有元素标签在那里)。 JavaScript的一部分,当我测试它,它工作得很好(这我应该用它来提取正确数据的)。

但是,当我做了解析/用jsoup(从Java类)得到的,只是初步的网站下载了解析。 含义有一个网站的部分动态,我想获得这些数据,但因为他们是渲染后得到,该网站我无法用jsoup捕捉到它的异步。

有谁知道解决的办法? 我使用正确的工具集? 有经验的人,我吩咐你的建议。

Answer 1:

您需要,如果你爬需求的网站一些此列表的显示所有内容进行检查:

  • 与登录/密码认证
  • 某种会话验证的HTTP头
  • 饼干
  • 某种时间延迟加载所有内容(网站上喷出大量JavaScript库,CSS和asyncronous数据可能需要这个)。
  • 一个特定的用户代理浏览器
  • 如果代理密码,通过举例来说,你是一个法人的网络安全配置中。

如果需要这个名单上的任何内容,您可以管理数据在jsoup.connect提供的参数()。 请参考官方文档。

http://jsoup.org/cookbook/input/load-document-from-url



文章来源: Advice with crawling web site content