刮隐藏的HTML使用角度来说，Hpricot（Ruby on Rails的）（当可见= FALSE） - 码农岛

刮隐藏的HTML使用角度来说，Hpricot（Ruby on Rails的）（当可见= FALSE）

2019-10-31 01:15发布

站内文章 / 后端开发

44 0

女 | 书童

私信

我遇到一个问题似乎不幸的是我无法超越，我也只是一个新生儿Ruby on Rails的不幸，因此问题的数量

我试图刮网页，例如以下内容：

http://www.yellowpages.com.mt/Malta/Grocers-Mini-Markets-Retail-In-Malta-Gozo.aspx

我想刮下一页在这种情况下的地址，电话和网址

http://www.yellowpages.com.mt/Malta/Grocers-Mini-Markets-Retail-In-Malta-Gozo+Ismol.aspx

我一直努力几乎任何我能想到的，但似乎没有任何工作，由于他们被设置为不可见左右。

地址是H3标签内，但它似乎没有要报废，能。我一直也在考虑ScRUBYt从以下网址http://www.rubyrailways.com/ajax-scraping-with-scrubyt-linkedin-google-analytics-yahoo-suggestions/ ，但我真的不能似乎找到头或如何在这种情况下应用它们的尾巴。

我真的很感激任何指针，因为这是一个障碍，我真的需要，以我的任务前进超越。在此先感谢您的帮助。

Answer 1:

在具体的例子中，你已经给出的元素是不能隐藏，但页面加载后通过AJAX加载。所以基本上你需要的是一个HTTP客户端可以运行JavaScript（网络浏览器？）看到这些地址等内容。

如果你想真正的过程自动化和废料它是通过AJAX或JavaScript获得了数据，你可以尝试硒。即使它是不是为目的而开发的，它服务您的需求。

Answer 2:

我没有回答您的具体问题，但我想我会指向Ryan Bates的Railscast情节在屏幕上用红宝石刮： http://railscasts.com/episodes/173-screen-scraping-with-scrapi

他采用了一种名为scrAPI代替ScRUBYt库，因为他无法得到ScRUBYt工作。 scrAPI似乎更容易一点，也许？

我希望这有助于一些，好运与你的任务！ :)

-约翰

Answer 3:

有张贴在一个好剧本谷歌组。这似乎提取地址等你可能想看看该脚本的代码page.txt 。

文章来源: Scraping hidden HTML (when visible = false) using Hpricot (Ruby on Rails)

标签： html ruby-on-rails screen-scraping hpricot scrubyt

乱世女痞

女 | 书童

私信

收藏的人(0)

Ta的文章更多文章

0条评论

还没有人评论过~