目前,我想要一些与DoubleClick广告日志导入Hadoop的。
这些日志存储在一个gzip分隔的文件这是使用1252页(Windows的ANSI?)和它使用冰岛索恩字符作为分隔符编码。
我可以高兴地导入这些日志成一列,但我似乎无法找到一个办法让蜂巢了解索恩人物 - 我想,也许是因为它不理解1252编码?
我看了看表创建文档- http://hive.apache.org/docs/r0.9.0/language_manual/data-manipulation-statements.html -但似乎无法找到任何方式来获得这种编码/分隔符的工作。
我也从见到https://karmasphere.com/karmasphere-analyst-faq的建议,对这些文件的编码是ISO-8859-1 -但我不明白如何使用蜂巢或HDFS这些信息。
我知道导入后我可以做一个地图的工作,这些行拆分成多个记录。
但是,有没有直接使用这个分隔符更简单的方法?
谢谢
斯图尔特