我有一个行入境的时间和下一个相同单位(ID)的退出时间大数据帧(6个百万行)。 我需要把它们放在一起。
原始数据看起来像下面(请记住,一些“身份证”可进入和退出像ID = 1的情况下两次):
df <- read.table(header=T, text='id time
1 "15/12/2014 06:30"
1 "15/12/2014 06:31"
1 "15/12/2014 06:34"
1 "15/12/2014 06:35"
2 "15/12/2014 06:36"
2 "15/12/2014 06:37"
3 "15/12/2014 06:38"
3 "15/12/2014 06:39"')
输出我需要:
id entry exit
1 15/12/2014 06:30 15/12/2014 06:31
2 15/12/2014 06:34 15/12/2014 06:35
3 15/12/2014 06:36 15/12/2014 06:37
4 15/12/2014 06:38 15/12/2014 06:39
现在我试图for循环,其拾取从第1行,并从2行时间退出时间的ID和进入时间,并把它们放在一起:
for (i in 1:nrow(df)){
outputdf[i,1] <- df[i+i-1,1]
outputdf[i,2] <- df[i+i-1,2]
outputdf[i,3] <- df[i+i-1+1,2]
}
问题是,这是非常低效的(适用于10K子集,但不是我的600万数据帧)。 我需要的东西,只需要不到至少一分钟。 我有600万行df
。 你知道任何其他比这个循环匹配行得更快?
你可以试试
library(data.table)
dcast.data.table(setDT(df)[ ,c('.id', 'Seq'):=
list(c('entry', 'exit'), gl(.N,2, .N))], id+Seq~.id, value.var='time')
# id Seq entry exit
#1: 1 1 15/12/2014 06:30 15/12/2014 06:31
#2: 1 2 15/12/2014 06:34 15/12/2014 06:35
#3: 2 3 15/12/2014 06:36 15/12/2014 06:37
#4: 3 4 15/12/2014 06:38 15/12/2014 06:39
数据
df <- structure(list(id = c(1L, 1L, 1L, 1L, 2L, 2L, 3L, 3L), time =
structure(1:8, .Label = c("15/12/2014 06:30",
"15/12/2014 06:31", "15/12/2014 06:34", "15/12/2014 06:35", "15/12/2014 06:36",
"15/12/2014 06:37", "15/12/2014 06:38", "15/12/2014 06:39"), class
= "factor")),.Names = c("id", "time"), class = "data.frame", row.names
= c(NA, -8L))
也许我失去了一些东西,但是这个怎么样?
indx <- seq(1,nrow(df)-1,2)
result <- with(df,data.frame(seq=seq(indx),id=id[indx],entry=time[indx],exit=time[indx+1]))
result
# seq id entry exit
# 1 1 1 15/12/2014 06:30 15/12/2014 06:31
# 2 2 1 15/12/2014 06:34 15/12/2014 06:35
# 3 3 2 15/12/2014 06:36 15/12/2014 06:37
# 4 4 3 15/12/2014 06:38 15/12/2014 06:39