如何写拼花文件中分区的Java类似pyspark?(How to write parquet fil

2019-09-29 07:29发布

我可以写拼花文件成这样pyspark分区:

rdd.write
 .partitionBy("created_year", "created_month")
 .parquet("hdfs:///my_file")

镶木文件被自动分割成created_year,created_month。 如何做到在Java中一样吗? 我看不出在ParquetWriter类的选项。 是否有另一个类,能做到吗?

谢谢,

Answer 1:

你有你的RDD转换成数据帧,然后调用write拼花功能。

df = sql_context.createDataFrame(rdd)
df.write.parquet("hdfs:///my_file", partitionBy=["created_year", "created_month"])


文章来源: How to write parquet file in partition in java similar to pyspark?