为什么在UNIX / Linux环境交互时UTF-8编码使用？(Why is it that UTF

我知道这是惯例，但为什么呢？是否有真正的技术原因，任何其他方式将是一个非常糟糕的主意，或只是基于编码和向后兼容性的历史？此外，什么是不使用的危险UTF-8但一些其他的编码（最值得注意的是， UTF-16 ）？

编辑：通过互动，我大多指的是shell和libc 。

Answer 1:

一方面是因为文件系统预计NUL（“\ 0”）字节终止的文件名，所以UTF-16将无法正常工作。你必须修改大量的代码进行改变。

Answer 2:

乔纳森 - 莱弗勒说来，主要问题是ASCII空字符。 Ç传统需要一个字符串为空终止。因此，标准的C字符串功能将窒息含有相当于一个ASCII零（0x00）字节任何UTF-16字符。虽然你当然可以用宽字符支持方案，UTF-16是不是在Unicode的一个合适的外部编码文件名，文本文件，环境变量。

此外，UTF-16和UTF-32有两个大endian和little endian方向。为了解决这个问题，你要么需要像一个MIME类型，或外部的元数据字节定位标识。它指出，

当UTF-8在8位环境中透明地使用，使用一个BOM将与预计在开始具体的ASCII字符，如使用的任何协议或文件格式干扰“＃！” 在UNIX shell脚本的开始。

前身为UTF-16，这是所谓的UCS-2不支持代理对，有同样的问题。 UCS-2应尽量避免。

Answer 3:

我相信这是主要的向后兼容性是UTF8与ASCII给。

对于一个问题的“危险”的问题，你需要指定你的“互动”的意思。你的意思是与外壳进行交互，用的libc，或与内核是否正确？

Answer 4:

现代Unix系统使用UTF-8，但这并非总是如此。在RHEL2 - 这是只有几年的历史 - 默认值是

  $区域  LANG = C  LC_CTYPE = “C”  LC_NUMERIC = “C”  LC_TIME = “C”  LC_COLLATE = “C”  LC_MONETARY = “C”  LC_MESSAGES = “C”  LC_PAPER = “C”  LC_NAME = “C”  LC_ADDRESS = “C”  LC_TELEPHONE = “C”  LC_MEASUREMENT = “C”  LC_IDENTIFICATION = “C”  LC_ALL =

的C / POSIX语言环境预期是一个7位ASCII兼容编码。

然而，如乔纳森莱弗勒所述，任何编码其允许NUL字节内的字符序列是在Unix不可行，因为系统API是区域设置的无知; 串都假定为通过\ 0终止字节序列。