这是已经在以前讨论的对象后 ,但是,我不相信有答案的谷歌文档指定它可以创建一个集群设置fs.defaultFS财产。 此外,即使可以以编程方式设置该属性,有时,它更方便的命令行设置。
所以,我想知道为什么下面的选项传递给我的群集创建命令不起作用时: --properties core:fs.defaultFS=gs://my-bucket
? 请注意,我并没有包括所有的参数,因为我跑的命令没有以前的标志,并成功创建群集。 然而,通过这个时候,我得到:“失败:无法启动主:的的DataNodes报告Insufficientnumber”
如果有人成功地创造通过设置fs.defaultFS一个dataproc集群那简直太好了? 谢谢。
还有,由于实际HDFS一定的依赖性仍然已知的问题这是真的; 该文档并不打算暗示在群集创建时fs.defaultFS设置为GCS路径会的工作,而是简单地提供显示在属性的便捷例如core-site.xml
; 在理论上这是可行的设置fs.defaultFS
到不同的预先存在的HDFS集群,例如。 我已经提交了票来改变文档中的例子,以避免混乱。
有两种选择:
- 只是覆盖
fs.defaultFS
使用每工作性质的作业提交时间 - 通过设置解决方法一些已知问题
fs.defaultFS
明确使用初始化动作,而不是集群属性。
选项1是更好地理解工作,因为集群级HDFS的依赖不会改变。 选项2级的作品,因为大多数不兼容的初始启动时才会出现,以及相关的守护进程运行后,初始化动作启动了。 要覆盖在初始化动作的设置,你会使用bdconfig
:
bdconfig set_property \
--name 'fs.defaultFS' \
--value 'gs://my-bucket' \
--configuration_file /etc/hadoop/conf/core-site.xml \
--clobber