在python综合字符替换模块用于非Unicode和非ASCII的HTML(Comprehensiv

2019-09-23 22:39发布

是否有蟒蛇,用于查找字符串中的所有非ASCII或非Unicode字符与ASCII或Unicode equivilents替换它们的综合字符替换模块? 这种舒适与编码或解码期间的“忽略”的说法是疯狂,但同样如此是一个“?” 在每一个地方,一个非翻译字符了。

我在寻找的是发现令人侧目的人物和他们符合要求标准的任何一个模块。 我认识到,现存的字母和编码量,使这个有点不可能,但肯定有人在它采取了刺? 即使是一个基本的解决方案会比现状更好。

这将意味着数据传输的简化是巨大的。

Answer 1:

我不认为你想要什么是真正可能的 - 但我认为这是一个不错的选择。

unicodedata有一个“正常化”的方法,可以适度降低文本你...

import unicodedata
def gracefully_degrade_to_ascii( text ):
    return unicodedata.normalize('NFKD',text).encode('ascii','ignore')

假设你正在使用的字符集已被映射成Unicode - 或者至少可以被映射成Unicode - 你应该能够使用此模块降解文本的Unicode版本到ASCII或UTF-8(标准的它的一部分库太)

全部文档- http://docs.python.org/library/unicodedata.html



Answer 2:

要查看任何个性,你猜它的编码是很难,可能不是很准确。 但是,您可以使用chardet的尝试和检测整个文件的编码。 然后你可以使用字符串解码()和编码()方法,它的编码转换为UTF-8。

http://pypi.python.org/pypi/chardet

和UTF-8与ASCII向后兼容,这样就不会成为一个大问题。



文章来源: Comprehensive character replacement module in python for non-unicode and non-ascii for HTML