-->

刮隐藏的HTML使用角度来说,Hpricot(Ruby on Rails的)(当可见= FALSE)

2019-10-31 01:15发布

我遇到一个问题似乎不幸的是我无法超越,我也只是一个新生儿Ruby on Rails的不幸,因此问题的数量

我试图刮网页,例如以下内容:

http://www.yellowpages.com.mt/Malta/Grocers-Mini-Markets-Retail-In-Malta-Gozo.aspx

我想刮下一页在这种情况下的地址,电话和网址

http://www.yellowpages.com.mt/Malta/Grocers-Mini-Markets-Retail-In-Malta-Gozo+Ismol.aspx

我一直努力几乎任何我能想到的,但似乎没有任何工作,由于他们被设置为不可见左右。

地址是H3标签内,但它似乎没有要报废,能。 我一直也在考虑ScRUBYt从以下网址http://www.rubyrailways.com/ajax-scraping-with-scrubyt-linkedin-google-analytics-yahoo-suggestions/ ,但我真的不能似乎找到头或如何在这种情况下应用它们的尾巴。

我真的很感激任何指针,因为这是一个障碍,我真的需要,以我的任务前进超越。 在此先感谢您的帮助。

Answer 1:

在具体的例子中,你已经给出的元素是不能隐藏,但页面加载后通过AJAX加载。 所以基本上你需要的是一个HTTP客户端可以运行JavaScript(网络浏览器?)看到这些地址等内容。

如果你想真正的过程自动化和废料它是通过AJAX或JavaScript获得了数据,你可以尝试硒 。 即使它是不是为目的而开发的,它服务您的需求。



Answer 2:

我没有回答您的具体问题,但我想我会指向Ryan Bates的Railscast情节在屏幕上用红宝石刮: http://railscasts.com/episodes/173-screen-scraping-with-scrapi

他采用了一种名为scrAPI代替ScRUBYt库,因为他无法得到ScRUBYt工作。 scrAPI似乎更容易一点,也许?

我希望这有助于一些,好运与你的任务! :)

-约翰



Answer 3:

有张贴在一个好剧本谷歌组 。 这似乎提取地址等你可能想看看该脚本的代码page.txt



文章来源: Scraping hidden HTML (when visible = false) using Hpricot (Ruby on Rails)