是ISO-8859-1一个Unicode字符集?(Is ISO-8859-1 a Unicode c

2019-09-23 18:21发布

我一直在出席一处写着“ISO-8859-1是一个Unicode格式” XML的讲座。 这听起来我错了,但我在它的研究,我挣扎理解的Unicode正是。

您可以拨打ISO-8859-1 Unicode格式? 什么,你可以实际调用的Unicode?

Answer 1:

不,ISO 8859-1是不是UNICODE字符集,仅仅是因为ISO 8859-1并不适用于所有的Unicode字符编码提供,只有一小部分上。 单词“字符集”有时松散(因此也常被最好避免),但作为一个技术术语,它意味着字符编码。

松开定义,以便“UNICODE字符集”意味着覆盖的Unicode的一部分将是毫无意义的编码。 然后,每个编码将是一个“UNICODE字符集”。



Answer 2:

ISO 8859-1是不是Unicode

ISO 8859-1又称Latin-1的。 它不是一个直接的Unicode格式。

然而,它确实有独特的特权,它的代码点为0x00 .. 0xFF的地图一到一个为Unicode代码点U + 0000 ... U + 00FF 。 因此,统一的前256个码点,1个字节的无符号整数处理,映射到ISO 8859-1。


控制字符

Peregring-LK 指出的是ISO 8859-1没有定义的控制代码。 Unicode的图表为U + 0000..U + 007F和U + 0080..U + 00FF表明,位置发现C0控制U + 0000..U + 001F和U + 007F来自ISO / IEC 6429:1992和在位置U + 0080..U + 9F发现同样的C1控制。 维基百科上的C0和C1控制表明标准是ISO / IEC 2022来代替。 需要注意的是三个C1控制的没有一个正式的名字。

一般的说法,假定ISO 8859-1代码集的控制码点是从ISO 6429(或2022)的C0和C1控制。



Answer 3:

ISO-8859-1包含UTF-8的Unicode,其基本上与ASCII重叠的子集。

所有ASCII是UTF-8的Unicode。

所有的ISO 8859-1(ISO拉丁1)所示的代码字符7F是十六进制的ASCII兼容和UTF-8中的一个字节兼容。 连字和字符与附加符号使用多字节Unicode UTF-8表示,并且使用Unicode 兼容性代码点

所有UTF-8单字节字符包含在ASCII。

UTF-8还包含多字节序列,其中有一些是collat​​able(即排序)当量- 组成当量-由兼容性码点表示的字符的,以及一些它们是由所有其他字符所表示的字符集高于ASCII和ISO等拉丁1。



Answer 4:

号ISO / IEC 8859-1比Unicode的旧的。 例如,你不会找到它€。 Unicode是达到某个点ISO 8859-1兼容。 对于Unicode字符的编码看UCS / UTF8 / UTF16。

如果你看一下代码格式,你有什么样

  • 摘要字母 - 您所使用的信
  • 码表 - 把某种形式的字母(如字母排序)
  • 代码格式 - 说在该代码表的哪个位置是哪个字母,(即是UTF8或UTF16编码)
  • 代码模式 - 如果使用更多的话来访问代码位置,以何种顺序是什么人? (大端,在UTF16小端)转向指令的字符编码(例如<在XML)]


Answer 5:

这取决于你如何定义“Unicode格式。”

我想大多数人都会把它意味着能够代表的Unicode的范围(U + 0000 - U + 10FFFF)任何码点的编码。

在这种情况下,不,ISO 8859-1是不是一个Unicode格式。

然而,一些其他的定义可能是“一个字符集是Unicode字符集的子集,”或“的编码可以被认为包含Unicode数据(不一定任意Unicode数据)”。 ISO 8859-1满足这两个定义。

Unicode是许多事情。 它包含一个字符集,其中“人物的分配码位值。 它定义属性字符,并提供人物和他们的属性的数据库。 它定义了做分割字符串成字形集群,也就是说,等它定义了一些特殊的编码,可以编码任何Unicode码点,并有其他一些有用特性与Unicode文本数据的各种东西,如比较字符串的方式,许多算法。 它定义了Unicode代码点以及原有的字符集编码点之间的映射。

在这里,你可以找到一个更完整的答案: Unicode.org



文章来源: Is ISO-8859-1 a Unicode charset?