我想凑网页在Ruby脚本,我的工作。 该项目的目的是要显示的交易所买卖基金和股票共同基金与价值投资理念最兼容。
我想刮的页面是一些例子:
http://finance.yahoo.com/q/pr?s=SPY+Profile
http://finance.yahoo.com/q/hl?s=SPY+Holdings
http://www.marketwatch.com/tools/mutual-fund/list/V
你推荐什么网页抓取工具对Ruby,为什么? 请记住,有数以千计的股票型基金在那里,所以我使用任何工具必须是相当快。
我是新来的Ruby,但我使用lxml的凑在Python(网页有经验https://github.com/jhsu802701/dopplervalueinvesting/blob/master/screen.py )。 一旦超过5000股的网页下载,LXML可以刮去他们都在短短几分钟。 (我记得试图BeautifulSoup,但拒绝它,因为它是太慢了。)