使用冰岛刺字符作为蜂巢分隔符(Using the Icelandic Thorn character

2019-09-23 23:12发布

目前,我想要一些与DoubleClick广告日志导入Hadoop的。

这些日志存储在一个gzip分隔的文件这是使用1252页(Windows的ANSI?)和它使用冰岛索恩字符作为分隔符编码。

我可以高兴地导入这些日志成一列,但我似乎无法找到一个办法让蜂巢了解索恩人物 - 我想,也许是因为它不理解1252编码?

我看了看表创建文档- http://hive.apache.org/docs/r0.9.0/language_manual/data-manipulation-statements.html -但似乎无法找到任何方式来获得这种编码/分隔符的工作。

我也从见到https://karmasphere.com/karmasphere-analyst-faq的建议,对这些文件的编码是ISO-8859-1 -但我不明白如何使用蜂巢或HDFS这些信息。

我知道导入后我可以做一个地图的工作,这些行拆分成多个记录。

但是,有没有直接使用这个分隔符更简单的方法?

谢谢

斯图尔特

Answer 1:

使用“\ -2”的字符是一个符号字节。

显然蜂巢开发者不认为这是一个问题: https://issues.apache.org/jira/browse/HIVE-237



文章来源: Using the Icelandic Thorn character as a delimiter in Hive