这个问题已经在这里有一个答案:
- 指望星火据帧是极其缓慢的 2个答案
- 获取的记录的计数的数据帧快 2个回答
我有一个非常大的数据框pyspark,我会计算行数,但count()
方法是太慢了。 是否有任何其他更快的方法?
这个问题已经在这里有一个答案:
我有一个非常大的数据框pyspark,我会计算行数,但count()
方法是太慢了。 是否有任何其他更快的方法?
如果你不介意的近似数,你可以尝试采样数据集 ,然后再由你的采样系数来换算:
>>> df = spark.range(10)
>>> df.sample(0.5).count()
4
在这种情况下,你会缩放count()
由结果2(或1 / 0.5)。 很显然,有这种方法的统计误差。