很显然,这是为拉丁字母如此。 但我问这在概念上,跨语言和Unicode规范。
实际上,这想出了比较两个字符串。 如果你已经知道自己是不是相同的字节数,在所有的语言,你能认为足够的保证,他们没有不同的“箱式”相同的字符串的版本?
很显然,这是为拉丁字母如此。 但我问这在概念上,跨语言和Unicode规范。
实际上,这想出了比较两个字符串。 如果你已经知道自己是不是相同的字节数,在所有的语言,你能认为足够的保证,他们没有不同的“箱式”相同的字符串的版本?
没有。
考虑U + 0069 “i”的,其具有的八位位组的值69
在UTF-8。 在大写形式U + 0130“I”这个代码点形成UTF-8序列C4 B0
。
强制性注:情况是语言环境敏感。
目前在保障这一Unicode标准没有原则或不变。 我会特别关注重音资金,其中可能有precomposition和跨例非precomposition之间的不匹配。 但是,我不能举出你的问题的一个例子。