如何有效地计算一个数据帧的行数? [重复](How to calculate the numbe

2019-10-29 15:18发布

这个问题已经在这里有一个答案:

  • 指望星火据帧是极其缓慢的 2个答案
  • 获取的记录的计数的数据帧快 2个回答

我有一个非常大的数据框pyspark,我会计算行数,但count()方法是太慢了。 是否有任何其他更快的方法?

Answer 1:

如果你不介意的近似数,你可以尝试采样数据集 ,然后再由你的采样系数来换算:

>>> df = spark.range(10)
>>> df.sample(0.5).count()
4

在这种情况下,你会缩放count()由结果2(或1 / 0.5)。 很显然,有这种方法的统计误差。



文章来源: How to calculate the number of rows of a dataframe efficiently? [duplicate]