是大写的UTF8字符总是相同的字节数作为其小写变种？(Are uppercase utf8 char - 码农岛

是大写的UTF8字符总是相同的字节数作为其小写变种？(Are uppercase utf8 char

2019-08-16 20:55发布

站内文章 / 移动开发

38 0

来，给爷笑一个

女 | 书童

私信

很显然，这是为拉丁字母如此。但我问这在概念上，跨语言和Unicode规范。

实际上，这想出了比较两个字符串。如果你已经知道自己是不是相同的字节数，在所有的语言，你能认为足够的保证，他们没有不同的“箱式”相同的字符串的版本？

Answer 1:

没有。

考虑U + 0069 “i”的，其具有的八位位组的值69在UTF-8。在大写形式U + 0130“I”这个代码点形成UTF-8序列C4 B0 。

强制性注：情况是语言环境敏感。

Answer 2:

目前在保障这一Unicode标准没有原则或不变。我会特别关注重音资金，其中可能有precomposition和跨例非precomposition之间的不匹配。但是，我不能举出你的问题的一个例子。

文章来源: Are uppercase utf8 characters always the same number of bytes as their lowercase variants?

标签： unicode utf-8 case-insensitive

来，给爷笑一个

女 | 书童

私信

收藏的人(0)

Ta的文章更多文章

0条评论

还没有人评论过~