使用滞后差分计算时dplyr崩溃(dplyr crash when using lagged dif

2019-10-24 03:28发布

我有一个数据帧400万行和1.4百万个不同分组变量的值。 样品DF看起来是这样的:

> df
        date        id
1 2015-06-25   4333864
2 2015-06-25   3867895
3 2015-06-25   4333866
4 2015-06-25   4333868
5 2015-06-29   2900522
6 2015-06-29   3609093

使用该命令来执行滞后日期差异上的8GB存储MAC崩溃R:

df %>% group_by(id) %>% mutate(dayDiff = date - lag(date))

难道这dplyr是内存饿了吗? 任何其他有效的方式来完成我需要什么?

下面是我使用dplyr的版本:

Package: dplyr
Type: Package
Version: 0.4.1

日期帧具有以下变量类型:

> str(df)
'data.frame':   6 obs. of  2 variables:
 $ date: Date, format: "2014-07-01" "2014-07-01" "2014-07-01" ...
 $ id  : num  1793096 2019424 1869572 1869573 1774661 ...
文章来源: dplyr crash when using lagged difference computation
标签: r dplyr