转换UTF-8字符序列实际UTF-8字节(Convert UTF-8 character seque

2019-10-17 07:08发布

我有一个包含这样的UTF-8字符序列一个纯文本文件(.yml):

富: “这是一个\ XC3 \ XB8”

问题就出在\ XC3 \ XB8 - 这些都不是“真正”的UTF-8字节,因为它们被保存在文本文件中为8个实际字符:\ X的C 3 \ X B 8

有没有办法让这些转化为真正的2个字节的UTF-8序列?

任何OS /语言/壳牌工具可用于:-)

/卡斯滕

Answer 1:

使用此perl脚本转换您的文件:

#!/usr/bin/perl
while (<STDIN>) {
  $_ =~ s/\\x([0-9A-F][0-9A-F])/chr(hex($1))/eg;
  print $_;
}

让我们假设你命名为脚本文件bogusutf ,然后执行此命令的转换:

$ perl的bogusutf



文章来源: Convert UTF-8 character sequence to real UTF-8 bytes