-->

spark Dataset如何按行获取数据

2019-02-22 17:06发布

问题:

需求:要把spark的数据转为json数据,collectAsLIst()返回LIst,但是如果数据量太大,内存肯定不够,所以有什么办法可以一行一行获取
看到limit(n)方法也只能获取前n的数据

回答1:

使用foreachParttition可以遍历



回答2:

应该可以 Skip() 已读过的行,再配合 limit() 应该就能实现分页读取数据



标签: spark