如何写拼花文件中分区的Java类似pyspark？(How to write parquet fil

2019-09-29 07:29发布

站内文章 / 后端开发

51 0

女 | 书童

私信

我可以写拼花文件成这样pyspark分区：

rdd.write
 .partitionBy("created_year", "created_month")
 .parquet("hdfs:///my_file")

镶木文件被自动分割成created_year，created_month。如何做到在Java中一样吗？我看不出在ParquetWriter类的选项。是否有另一个类，能做到吗？

谢谢，

Answer 1:

你有你的RDD转换成数据帧，然后调用write拼花功能。

df = sql_context.createDataFrame(rdd)
df.write.parquet("hdfs:///my_file", partitionBy=["created_year", "created_month"])

文章来源: How to write parquet file in partition in java similar to pyspark?

标签： hadoop pyspark parquet

再贱就再见

女 | 书童

私信

Ta的文章更多文章

0条评论

还没有人评论过~