难道C ++ 11的正则表达式使用UTF-8字符串的工作?(Do C++11 regular exp

2019-06-25 21:40发布

如果我想使用C ++ 11的正则表达式与unicode字符串,他们会使用char *的工作为UTF-8或做我必须将它们转换为wchar_t的*字符串?

Answer 1:

您将需要测试你的编译器和你正在使用的系统,但在理论上,如果你的系统有一个使用UTF-8将支持。 下面的测试上锵/ OS X.返回真我

bool test_unicode()
{
    std::locale old;
    std::locale::global(std::locale("en_US.UTF-8"));

    std::regex pattern("[[:alpha:]]+", std::regex_constants::extended);
    bool result = std::regex_match(std::string("abcdéfg"), pattern);

    std::locale::global(old);

    return result;
}

注意:这是在一个文件是什么UTF-8编码的编制。


为了安全起见我也采用了与明确的十六进制形式的字符串。 它还工作。

bool test_unicode2()
{
    std::locale old;
    std::locale::global(std::locale("en_US.UTF-8"));

    std::regex pattern("[[:alpha:]]+", std::regex_constants::extended);
    bool result = std::regex_match(std::string("abcd\xC3\xA9""fg"), pattern);

    std::locale::global(old);

    return result;
}

更新 test_unicode()仍然为我工作

$ file regex-test.cpp 
regex-test.cpp: UTF-8 Unicode c program text

$ g++ --version
Configured with: --prefix=/Applications/Xcode-8.2.1.app/Contents/Developer/usr --with-gxx-include-dir=/usr/include/c++/4.2.1
Apple LLVM version 8.0.0 (clang-800.0.42.1)
Target: x86_64-apple-darwin15.6.0
Thread model: posix
InstalledDir: /Applications/Xcode-8.2.1.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin


Answer 2:

C ++ 11的正则表达式将“一起工作” UTF-8就好了,对“工作”的最小定义。 如果你想为UTF-8字符串“完整”的Unicode正则表达式的支持,你将与一个支持直接如图书馆更好http://www.pcre.org/ 。



Answer 3:

我有一个用例,我需要处理潜在的 unicode字符串寻找笛卡尔坐标时,这个示例显示了我如何处理它作为建议的std::wregexstd::wstring ,反对的解析模块潜在的 Unicode字符。

static bool isCoordinate(std::wstring token)
{   
    std::wregex re(L"^(-?[[:digit:]]+)$");
    std::wsmatch match;
    return std::regex_search(token, match, re);
}

int wmain(int argc, wchar_t * argv[])
{
    // Testing against not a number nor unicode designation
    bool coord = ::isCoordinate(L"أَبْجَدِيَّة عَرَبِيَّة‎中文"); 

    if (!coord)
        return 0;
    return 1;
}


Answer 4:

是的,他们会的,这是由UTF-8编码的设计。 如果字符串作为一个字节数组,而不是编码点的阵列处理子串操作应该正常工作。

请参见常见问题解答第18位置: http://www.utf8everywhere.org/#faq.validation关于如何在这个编码的设计实现。



文章来源: Do C++11 regular expressions work with UTF-8 strings?