网页刮在Ruby中获得宝石/工具[关闭](Web page scraping gems/tools

2019-07-20 09:48发布

我想凑网页在Ruby脚本，我的工作。该项目的目的是要显示的交易所买卖基金和股票共同基金与价值投资理念最兼容。

我想刮的页面是一些例子：

http://finance.yahoo.com/q/pr?s=SPY+Profile
http://finance.yahoo.com/q/hl?s=SPY+Holdings
http://www.marketwatch.com/tools/mutual-fund/list/V

你推荐什么网页抓取工具对Ruby，为什么？请记住，有数以千计的股票型基金在那里，所以我使用任何工具必须是相当快。

我是新来的Ruby，但我使用lxml的凑在Python（网页有经验https://github.com/jhsu802701/dopplervalueinvesting/blob/master/screen.py ）。一旦超过5000股的网页下载，LXML可以刮去他们都在短短几分钟。（我记得试图BeautifulSoup，但拒绝它，因为它是太慢了。）

Answer 1:

有这么多的scraping gems可用Ruby一样角度来说，Hpricot ，引入nokogiri和这么多。我建议Nokogiri刮static web pages 。如果您正在刮dynamic web pages （指可能按一下按钮，提交表单等）。我建议机械化内部使用Nokogiri 。