我需要元素映射jsoup回特定字符偏移源HTML。 换句话说,如果我有HTML,看起来像这样:
Hello <br/> World
我需要知道,“你好”开始,在偏移0,有6个字符的长度, <br/>
开始于偏移6,具有5个字符的长度,等等。
我无法找到的元素的Javadoc返回该信息的吸气剂。 可以被检索到?
我需要元素映射jsoup回特定字符偏移源HTML。 换句话说,如果我有HTML,看起来像这样:
Hello <br/> World
我需要知道,“你好”开始,在偏移0,有6个字符的长度, <br/>
开始于偏移6,具有5个字符的长度,等等。
我无法找到的元素的Javadoc返回该信息的吸气剂。 可以被检索到?
我不相信Jsoup具有此功能。 这个问题似乎更接近比HTML解析词法分析。
我会写一个语法,然后写针对语法这将令牌化的HTML,并提供你正在寻找的偏移量的词法分析器。
首先,解析文档与Jsoup,以验证它是有效的HTML。
然后,词法分析对语法的文件。 一个语法可能看起来像:
Document := {optional-opening-tag} | {literal} {optional-opening-tag} | {optional-closing-tag}
optional-opening-tag := ["<" {literal} ">" {optional-opening-tag}|{literal} ] | ""
optional-closing-tag := "</ {literal} ">" | ""
literal := any string of characters not beginning with whitespace, or containing "<"
每次插入您在存储令牌,第一个字符的索引对象找到令牌,和长度。