当粘贴来自外部源的文本转换为纯文本编辑器(例如TextMate的或升华文本2)的共同的问题是,特殊字符中往往粘贴为好。 一些字符渲染罚款,但根据来源,有些人可能无法正确显示(通常显示为与它周围的一个盒子问号)。
因此,这实际上是两个问题:
给定一个特殊字符(如'或♥)我能确定用于从我的文字编辑器内显示该字符的UTF-8字符代码,和/或这些字符转换为它们的字符代码?
对于进来的垃圾的“超特”字,有什么办法弄清楚被用来显示源文本字符编码什么,可那些莫名其妙的字符转换为UTF-8?
当粘贴来自外部源的文本转换为纯文本编辑器(例如TextMate的或升华文本2)的共同的问题是,特殊字符中往往粘贴为好。 一些字符渲染罚款,但根据来源,有些人可能无法正确显示(通常显示为与它周围的一个盒子问号)。
因此,这实际上是两个问题:
给定一个特殊字符(如'或♥)我能确定用于从我的文字编辑器内显示该字符的UTF-8字符代码,和/或这些字符转换为它们的字符代码?
对于进来的垃圾的“超特”字,有什么办法弄清楚被用来显示源文本字符编码什么,可那些莫名其妙的字符转换为UTF-8?
我最喜欢的网站查找字符是fileformat.info 。 他们有一个伟大的Unicode字符的搜索,其中包括了大量的关于每个字符和它的各种编码的有用信息。
如果你看到问号了一个盒子,这意味着你粘贴的东西,无法解释,往往是因为它不是合法的UTF-8(不是每一个字节序列是合法的UTF-8)。 一种可能性是,它是UTF-16与你的编辑器不期望的端模式。 如果你能得到完整的原始源到一个文件,该file
的命令往往是确定编码的最佳工具。
在与什么我建了一个工具,把重点放在搜索字符。 它索引所有的Unicode和HTML实体表,但也补充与黑客字典和我收集的关键字数据库,这样你就可以搜索类的字眼heart
, quot
, weather
, umlaut
, hash
, cloverleaf
,并得到你想要的。 通过专注于搜索,它避免了不得不四处搜寻Unicode的页面,这可能是令人沮丧的。 试试看。