与抓取网站内容的建议(Advice with crawling web site content)

2019-09-18 23:37发布

我试图抓取一些网站内容，使用jsoup和java结合。保存相关细节到我的数据库和每日做同样的活动。

但这里是交易，我在浏览器中我得到呈现的HTML打开网站（与所有元素标签在那里）。 JavaScript的一部分，当我测试它，它工作得很好（这我应该用它来提取正确数据的）。

但是，当我做了解析/用jsoup（从Java类）得到的，只是初步的网站下载了解析。含义有一个网站的部分动态，我想获得这些数据，但因为他们是渲染后得到，该网站我无法用jsoup捕捉到它的异步。

有谁知道解决的办法？我使用正确的工具集？有经验的人，我吩咐你的建议。

Answer 1:

您需要，如果你爬需求的网站一些此列表的显示所有内容进行检查：

如果需要这个名单上的任何内容，您可以管理数据在jsoup.connect提供的参数（）。请参考官方文档。

http://jsoup.org/cookbook/input/load-document-from-url

文章来源: Advice with crawling web site content

Answer 1: