如何有效地计算一个数据帧的行数？ [重复](How to calculate the numbe

2019-10-29 15:18发布

站内文章 / 移动开发

27 0

女 | 书童

私信

这个问题已经在这里有一个答案：

我有一个非常大的数据框pyspark，我会计算行数，但count()方法是太慢了。是否有任何其他更快的方法？

Answer 1:

如果你不介意的近似数，你可以尝试采样数据集，然后再由你的采样系数来换算：

>>> df = spark.range(10)
>>> df.sample(0.5).count()
4

在这种情况下，你会缩放count()由结果2（或1 / 0.5）。很显然，有这种方法的统计误差。

文章来源: How to calculate the number of rows of a dataframe efficiently? [duplicate]

标签： apache-spark pyspark apache-spark-sql

仙女界的扛把子

女 | 书童

私信

Ta的文章更多文章

0条评论

还没有人评论过~