HTMLCLEANER处理西班牙字符(HTMLCLEANER handle Spanish char

2019-07-29 03:33发布

我为了解析/转换在Java中的HTML文件使用HtmlCleaner库。

这似乎是无法处理西班牙字母,如“ÁáÉéÍíÑñÓóÚúÜü”

有没有我可以在HtmlCleaner设置处理这个或任何其他解决方案的任何财产? 下面是我使用调用它的代码:

CleanerProperties props = new CleanerProperties();
props.setRecognizeUnicodeChars(true);
java.io.File file = new java.io.File("C:\\example.html");
TagNode tagNode = new HtmlCleaner(props).clean(file);

Answer 1:

HtmlCleaner使用除非从JVM读取默认字符集。 在Windows中,这将是CP1512不是UTF-8,这可能是到哪里去错误的。

你可以

  • 指定-Dfile.encoding=UTF-8上的JVM启动线
  • 使用HtmlCleaner.clean()它接受一个字符集的过载

     TagNode tagNode = new HtmlCleaner(props).clean(file, "UTF-8"); 

    (如果你在项目中得到了谷歌番石榴可以使用Charsets.UTF_8为常数)

  • 使用HtmlCleaner.clean()它接受你已经用正确的字符集构造一个InputStreamReader超载。


Answer 2:

您可以更改UTF-8UTF-16

它将支持最大字符数。



文章来源: HTMLCLEANER handle Spanish characters