最佳实践工作Sqoop,HDFS和蜂巢(Best practices to work Sqoop,

2019-09-29 20:49发布

我不得不使用sqoop导入从MySQL数据库中的所有表到hdfsexternal tableshive (无过滤器,具有相同的结构)

在进口我要带上:

  • 对于现有的表的新数据
  • 对于现有的表的更新数据(仅使用id列)
  • 在MySQL创建的新表(Y创造蜂巢外部表)

然后创建一个sqoop job自动完成这一切。

(我有一个mysql大约有60桌的数据库,并与每个新的客户端将投入生产,将创建一个新表。所以,我需要sqoop以尽可能自动工作)

执行导入所有表的第一个命令是:

sqoop import-all-tables --connect jdbc:mysql://IP/db_name --username user --password pass --warehouse-dir /user/hdfs/db_name -m 1

这里瓢和外部蜂巢表的支持说,为建立在外部表中加入支持hive ,但我没有找到提到的命令文件或实例

什么是与之合作的最佳做法sqoop它着眼于从所有更新mysql数据库,并传递到hdfshive

任何想法将是一件好事。

提前致谢。

编辑:炒到并支持外部蜂巢表(SQOOP-816)仍然没有得到解决

文章来源: Best practices to work Sqoop, HDFS and Hive