我可以写拼花文件成这样pyspark分区:
rdd.write
.partitionBy("created_year", "created_month")
.parquet("hdfs:///my_file")
镶木文件被自动分割成created_year,created_month。 如何做到在Java中一样吗? 我看不出在ParquetWriter类的选项。 是否有另一个类,能做到吗?
谢谢,
我可以写拼花文件成这样pyspark分区:
rdd.write
.partitionBy("created_year", "created_month")
.parquet("hdfs:///my_file")
镶木文件被自动分割成created_year,created_month。 如何做到在Java中一样吗? 我看不出在ParquetWriter类的选项。 是否有另一个类,能做到吗?
谢谢,
你有你的RDD转换成数据帧,然后调用write拼花功能。
df = sql_context.createDataFrame(rdd)
df.write.parquet("hdfs:///my_file", partitionBy=["created_year", "created_month"])