如何解析Android中(非良构)HTML?(How to parse (non well-form

2019-09-28 20:59发布

如何分析非android系统结构良好的HTML?

我试图用XOM和TagSoup,但在创建生成器时,我得到以下错误:

11-26 20:42:39.294: ERROR/dalvikvm(1298): Could not find method org.apache.xerces.impl.Version.getVersion, referenced from method nu.xom.Builder.

我必须安装的Xerces使用XOM或者我可以使用tagsoup没有XOM?

Answer 1:

您可能会发现JTidy( http://jtidy.sourceforge.net/ ) - HTMLTidy的端口要足够轻巧。 它输出XHTML上请求



Answer 2:

XOM可能需要的Xerces要在classpath中 - 这可能依赖于Java版本。 目前我们使用

xercesImpl-2.8.0.jar


文章来源: How to parse (non well-formed) HTML in android?