我需要unicode字符串转换为Unicode字符。
对于如:语言泰米尔语
“卡迈利'=>' B '' H '' L'
我能够剥离的unicode字节,但生产Unicode字符是成了问题。
byte[] stringBytes = Encoding.Unicode.GetBytes("கமலி");
char[] stringChars = Encoding.Unicode.GetChars(stringBytes);
foreach (var crt in stringChars)
{
Trace.WriteLine(crt);
}
它给结果为:
'Q'=> 0 x0b95
'H'=> 0 x0bae
'L'=> 0 x0bb2
'ி'=> 0 x0bbf
所以这里的问题是如何剥离字符“லி”,因为它为不喜欢拆分“லி“ல”,“ி”。
因为它是由代表辅音和元音作为单个字符,但与C#解析在印第安语中自然使困难。
所有我需要被分成3个字符。