编码在R:如何这个字符串为UTF-8转换?(Encoding in R: How to conver

2019-10-17 20:10发布

我使用R键读取旧的名气数据库中的数据。 这工作得很好,一般,但阅读的描述,当我得到意想不到的编码回来。 例如:

a <- "\U3e34653c"
# is supposed to be 
"ä"

我想iconv我解决这个问题的自我,但尽管尝试多种可能性我是不是能够得到它显示在一个适当的方式。 我的语言环境:en_US.UTF-8。 有没有解决更换(子)这样的字符串的方法吗?

Answer 1:

尝试用不同的编码字符串,打开文件? 李嘉图提出,也许Latin1的? 如果没有可能其他一些异国风味:

f <- file( "myfile.db" , encoding = "Latin-1" )
dat <- readLines( f )

你可以链接到一些数据?



Answer 2:

(通过ODBC和RODBC包)中提取数据从SQL Server,当我有一个相同的问题。 我通过更改ODBC驱动程序的设置,把所有的字符串为Unicode解决它。

更具体地说,我使用的实际技术ODBC驱动程序的SQL Server,并在“高级语言设置”可以指定“将文本类型为Unicode”与“多字节文本编码”设置为UTF-8的选项。



文章来源: Encoding in R: How to convert this string to UTF-8?
标签: r encoding utf-8