是大写的UTF8字符总是相同的字节数作为其小写变种?(Are uppercase utf8 char

2019-08-16 20:55发布

很显然,这是为拉丁字母如此。 但我问这在概念上,跨语言和Unicode规范。

实际上,这想出了比较两个字符串。 如果你已经知道自己是不是相同的字节数,在所有的语言,你能认为足够的保证,他们没有不同的“箱式”相同的字符串的版本?

Answer 1:

没有。

考虑U + 0069 “i”的,其具有的八位位组的值69在UTF-8。 在大写形式U + 0130“I”这个代码点形成UTF-8序列C4 B0

强制性注:情况是语言环境敏感。



Answer 2:

目前在保障这一Unicode标准没有原则或不变。 我会特别关注重音资金,其中可能有precomposition和跨例非precomposition之间的不匹配。 但是,我不能举出你的问题的一个例子。



文章来源: Are uppercase utf8 characters always the same number of bytes as their lowercase variants?