如果任何人需要Scala的简洁的语法的优势网络刮图书馆都知道只是想知道。 到目前为止,我已经找到了摩擦 ,但是这似乎不佳,记录和维护。 如果有人在那里做使用Scala刮有意见,我不知道。 (我想融入现有的Scala的框架,而不是采用书面,比方说,Python的刮刀)。
Answer 1:
首先出现的是在JVM HTML刮库过多所有你需要做的是皮条客其中之一(皮条客我的图书馆模式) 。
我用这四个分别是:
- 的HtmlUnit - 将模拟浏览器,甚至运行JavaScript
- 杰里科 - 如果你想编辑HTML刮蜜饯格式和理想
- NekoHtml
- JSoup -
不使用Scala工作。 可能工作
我用硒,但从来没有刮。 Scala有硒周围的包装 。
我建议在一些半烤斯卡拉LIB拉皮条现有的Java库。
Answer 2:
我没有一个具体的Scala的推荐,但对于JVM总的来说,我已经受够了很好的成功:
- JSoup您可以CSS选择“刮”的文件。 真正好的工作。
- 使用Tagsoup让你输入HTML到XML,然后使用XML处理器“刮”。
该Tagsoup路线实际上斯卡拉工作得很好,因为Scala的内置XML“DSL”是非常简洁的(如果你能原谅它的PERF的问题和偶尔的API怪事)。 此外,Tagsoup几乎将处理你给它任何垃圾文件。 它也有细微像许多HTML实体内置理解,其他SAXParsers会噎死为未申报。
TL;博士 - JSoup + CSS选择器如果可能的话,否则Tagsoup + XML阶。 如果慢是好的,tagsoup,再jsoup结果。
Answer 3:
我建议鹅: https://github.com/jiminoc/goose
这不是一般使用的,你可能需要但如果你从刮热门网站文章内容,它可能工作开箱。 它还提供了一个框架,供您,如果你想扩展他们的代码到其他地方工作。
文章来源: Web Scraping with Scala [closed]