我有一个包含这样的UTF-8字符序列一个纯文本文件(.yml):
富: “这是一个\ XC3 \ XB8”
问题就出在\ XC3 \ XB8 - 这些都不是“真正”的UTF-8字节,因为它们被保存在文本文件中为8个实际字符:\ X的C 3 \ X B 8
有没有办法让这些转化为真正的2个字节的UTF-8序列?
任何OS /语言/壳牌工具可用于:-)
/卡斯滕
我有一个包含这样的UTF-8字符序列一个纯文本文件(.yml):
富: “这是一个\ XC3 \ XB8”
问题就出在\ XC3 \ XB8 - 这些都不是“真正”的UTF-8字节,因为它们被保存在文本文件中为8个实际字符:\ X的C 3 \ X B 8
有没有办法让这些转化为真正的2个字节的UTF-8序列?
任何OS /语言/壳牌工具可用于:-)
/卡斯滕
使用此perl脚本转换您的文件:
#!/usr/bin/perl
while (<STDIN>) {
$_ =~ s/\\x([0-9A-F][0-9A-F])/chr(hex($1))/eg;
print $_;
}
让我们假设你命名为脚本文件bogusutf
,然后执行此命令的转换:
$ perl的bogusutf