HTMLCLEANER处理西班牙字符(HTMLCLEANER handle Spanish char

2019-07-29 03:33发布

我为了解析/转换在Java中的HTML文件使用HtmlCleaner库。

这似乎是无法处理西班牙字母，如“ÁáÉéÍíÑñÓóÚúÜü”

有没有我可以在HtmlCleaner设置处理这个或任何其他解决方案的任何财产？下面是我使用调用它的代码：

CleanerProperties props = new CleanerProperties();
props.setRecognizeUnicodeChars(true);
java.io.File file = new java.io.File("C:\\example.html");
TagNode tagNode = new HtmlCleaner(props).clean(file);

Answer 1:

HtmlCleaner使用除非从JVM读取默认字符集。在Windows中，这将是CP1512不是UTF-8，这可能是到哪里去错误的。

你可以

指定-Dfile.encoding=UTF-8上的JVM启动线
使用HtmlCleaner.clean()它接受一个字符集的过载
```
 TagNode tagNode = new HtmlCleaner(props).clean(file, "UTF-8"); 
```
（如果你在项目中得到了谷歌番石榴可以使用Charsets.UTF_8为常数）
使用HtmlCleaner.clean()它接受你已经用正确的字符集构造一个InputStreamReader超载。