我见过一对夫妇类似这样的问题,但不是我的情况一个满意的答复。 下面是一个示例数据框:
+------+-----+----+
| id|value|type|
+------+-----+----+
|283924| 1.5| 0|
|283924| 1.5| 1|
|982384| 3.0| 0|
|982384| 3.0| 1|
|892383| 2.0| 0|
|892383| 2.5| 1|
+------+-----+----+
我想只是识别重复"id"
和"value"
栏,然后删除所有实例。
在这种情况下:
- 行1和2是重复的(重新我们忽略了“类型”列)
- 行3和4是重复的,因此只行5和6应保持:
输出将是:
+------+-----+----+
| id|value|type|
+------+-----+----+
|892383| 2.5| 1|
|892383| 2.0| 0|
+------+-----+----+
我试过了
df.dropDuplicates(subset = ['id', 'value'], keep = False)
但“守”的特点是不PySpark(因为它是在pandas.DataFrame.drop_duplicates
。
我还能怎么做呢?