我有以下排序向量:
> v
[1] -1 0 1 2 4 5 2 3 4 5 7 8 5 6 7 8 10 11
我怎样才能去除-1,0和11项不循环在整个载体 ,无论是与用户环路或隐式语言的关键字? 即,欲在各边缘处并且仅在每个边缘修剪矢量,使得在已排序序列是我分钟内,最大值参数1和10的解决方案应该假设矢量进行排序以避免检查每个元素。
这种解决方案可以派上矢量操作方便非常大的载体,当我们要使用向量中的项目,如在另一个对象的索引。 对于一个应用程序中看到这个线程 。
以前所有的解决方案的隐含检查向量的每一个元素。 作为@Robert库布里克指出,这并不需要的事实矢量已经排序的优势。
要利用向量的排序自然优势,您可以使用二进制搜索(通过findInterval
)找到起点和终点指标不看的每一个元素:
n<-1e9
v<--3:(n+3)
system.time(a <- v [v>=1 & v <=n]) # 68 s
system.time(b <- v[do.call(seq,as.list(findInterval(c(1,n),v)))]) # 15s
identical(a,b) # TRUE
这是一个有点笨拙,有一些讨论 ,在二进制搜索findInterval
可能不是完全有效的,但一般的概念是存在的。
正如评论指出,当时该指数是在载体上才起作用。 这里是我想将工作的函数:
in.range <- function(x, lo = -Inf, hi = +Inf) {
lo.idx <- findInterval(lo, x, all.inside = TRUE)
hi.idx <- findInterval(hi, x)
lo.idx <- lo.idx + x[lo.idx] >= lo
x[seq(lo.idx, hi.idx)]
}
system.time(b <- in.range(v, 1, n) # 15s
以包括在由索引的向量元素:
v [2:10]
排除某些元素
v [-c (1, 11) ]
为仅包括在一定范围内:
v <- v [v>=1 & v <=10]
如果我不允许假设,就像在你的榜样,要修剪的元素数量<<矢量中元素的个数,然后我想我能击败二进制搜索:
> n<-1e8
> v<--3:(n+3)
>
> min <- 1
> max <- length(v)
>
> calcMin <- function(v, minVal){
+ while(v[min] < minVal){
+ min <- min + 1
+ }
+ min
+ }
>
> calcMax <- function(v, maxVal){
+ while(v[max] > maxVal){
+ max <- max - 1
+ }
+ max
+ }
>
> #Compute the min and max indices and create a sequence
> system.time(a <- v[calcMin(v, 1):calcMax(v,n)])
user system elapsed
1.030 0.269 1.298
>
> #do a binary search to find the elements (as suggested by @nograpes)
> system.time(b <- v[do.call(seq,as.list(findInterval(c(1,n),v)))])
user system elapsed
2.208 0.631 2.842
>
> #use negative indexing to remove elements
> system.time(c <- v[-c(1:(calcMin(v, 1)-1), (calcMax(v,n)+1):length(v))])
user system elapsed
1.449 0.256 1.704
>
> #use head and tail to trim the vector
> system.time(d <- tail(head(v, n=(calcMax(v,n)-length(v))), n=-calcMin(v, 1)+1))
user system elapsed
2.994 0.877 3.871
>
> identical(a, b)
[1] TRUE
> identical(a, c)
[1] TRUE
> identical(a, d)
[1] TRUE
有很多方法可以做到这一点,这里的一些:
> v <- -1:11 # creating your vector
> v[v %in% 1:10]
[1] 1 2 3 4 5 6 7 8 9 10
> setdiff(v, c(-1,0,11))
[1] 1 2 3 4 5 6 7 8 9 10
> intersect(v, 1:10)
[1] 1 2 3 4 5 6 7 8 9 10
两个更多的选择,而不是那么优雅。
> na.omit(match(v, 1:10))
> na.exclude(match(v, 1:10))
您可以使用%in%
也:
vv <- c(-1, 0 ,1 ,2 ,4 ,5, 2 ,3 ,4, 5, 7 ,8, 5, 6, 7, 8, 10, 11)
vv[vv %in% 1:10]
[1] 1 2 4 5 2 3 4 5 7 8 5 6 7 8 10