我有一个数据帧400万行和1.4百万个不同分组变量的值。 样品DF看起来是这样的:
> df
date id
1 2015-06-25 4333864
2 2015-06-25 3867895
3 2015-06-25 4333866
4 2015-06-25 4333868
5 2015-06-29 2900522
6 2015-06-29 3609093
使用该命令来执行滞后日期差异上的8GB存储MAC崩溃R:
df %>% group_by(id) %>% mutate(dayDiff = date - lag(date))
难道这dplyr是内存饿了吗? 任何其他有效的方式来完成我需要什么?
下面是我使用dplyr的版本:
Package: dplyr
Type: Package
Version: 0.4.1
日期帧具有以下变量类型:
> str(df)
'data.frame': 6 obs. of 2 variables:
$ date: Date, format: "2014-07-01" "2014-07-01" "2014-07-01" ...
$ id : num 1793096 2019424 1869572 1869573 1774661 ...