-->

获取字符偏移量为jsoup元素(Get character offsets for elements

2019-07-30 07:44发布

我需要元素映射jsoup回特定字符偏移源HTML。 换句话说,如果我有HTML,看起来像这样:

Hello <br/> World

我需要知道,“你好”开始,在偏移0,有6个字符的长度, <br/>开始于偏移6,具有5个字符的长度,等等。

我无法找到的元素的Javadoc返回该信息的吸气剂。 可以被检索到?

Answer 1:

我不相信Jsoup具有此功能。 这个问题似乎更接近比HTML解析词法分析。

我会写一个语法,然后写针对语法这将令牌化的HTML,并提供你正在寻找的偏移量的词法分析器。

首先,解析文档与Jsoup,以验证它是有效的HTML。

然后,词法分析对语法的文件。 一个语法可能看起来像:

Document := {optional-opening-tag} | {literal} {optional-opening-tag} | {optional-closing-tag}

optional-opening-tag := ["<" {literal} ">" {optional-opening-tag}|{literal} ] | ""

optional-closing-tag := "</ {literal} ">" | ""

literal := any string of characters not beginning with whitespace, or containing "<"

每次插入您在存储令牌,第一个字符的索引对象找到令牌,和长度。



文章来源: Get character offsets for elements in jsoup