我解析HTML文件到使用NekoHTML解析器一个良好的XML文档。 但是我不能完全弄清楚GPATH这样我就可以识别出具有“设置”字符串表。
def parser = new org.cyberneko.html.parsers.SAXParser()
parser.setFeature('http://xml.org/sax/features/namespaces', false)
def html =
'''
<html>
<title>Hiya!</title>
</html>
<body>
<table>
<tr>
<th colspan='3'>Settings</th>
<td>First cell r1</td>
<td>Second cell r1</td>
</tr>
</table>
<table>
<tr>
<th colspan='3'>Other Settings</th>
<td>First cell r2</td>
<td>Second cell r2</td>
</tr>
</table>
'''
def slurper = new XmlSlurper(parser)
def page = slurper.parseText(html)
在此示例中,第一表应该被选择为使得我可以通过在它的其他列值进行迭代。 有人可以帮我这个GPATH好吗?
编辑:方的问题 - 为什么
println page.HTML.HEAD.TITLE
打印一个空字符串,它不应该返回的称号?