我为了解析/转换在Java中的HTML文件使用HtmlCleaner库。
这似乎是无法处理西班牙字母,如“ÁáÉéÍíÑñÓóÚúÜü”
有没有我可以在HtmlCleaner设置处理这个或任何其他解决方案的任何财产? 下面是我使用调用它的代码:
CleanerProperties props = new CleanerProperties();
props.setRecognizeUnicodeChars(true);
java.io.File file = new java.io.File("C:\\example.html");
TagNode tagNode = new HtmlCleaner(props).clean(file);