-->

R代码里面归类到年龄组/箱/符(R code to categorize age into grou

2019-07-01 08:48发布

我想年龄归类到组,所以它不会是连续的。 我有这样的代码:

data$agegrp(data$age>=40 & data$age<=49) <- 3
data$agegrp(data$age>=30 & data$age<=39) <- 2
data$agegrp(data$age>=20 & data$age<=29) <- 1

上面的代码不存活包下工作。 它给我:

invalid function in complex assignment

你能指出我哪里出错? data是我使用的数据帧。

Answer 1:

我会用findInterval()在这里:

首先,弥补了一些示例数据

set.seed(1)
ages <- floor(runif(20, min = 20, max = 50))
ages
# [1] 27 31 37 47 26 46 48 39 38 21 26 25 40 31 43 34 41 49 31 43

使用findInterval()分类您的“年龄”向量。

findInterval(ages, c(20, 30, 40))
# [1] 1 2 2 3 1 3 3 2 2 1 1 1 3 2 3 2 3 3 2 3

此外,作为在评论中建议, cut()在这里也有用:

cut(ages, breaks=c(20, 30, 40, 50), right = FALSE)
cut(ages, breaks=c(20, 30, 40, 50), right = FALSE, labels = FALSE)


Answer 2:

这个答案提供了两种方法来解决使用问题data.table包,这将大大提高处理速度。 如果一个人正在与大型数据集这是至关重要的。

1S做法 :以前的答案的适应,但现在使用data.table +包括labels

library(data.table)

agebreaks <- c(0,1,5,10,15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,500)
agelabels <- c("0-1","1-4","5-9","10-14","15-19","20-24","25-29","30-34",
               "35-39","40-44","45-49","50-54","55-59","60-64","65-69",
               "70-74","75-79","80-84","85+")

setDT(data)[ , agegroups := cut(age, 
                                breaks = agebreaks, 
                                right = FALSE, 
                                labels = agelabels)]

第二个方法 :这是一个比较罗嗦的方法,但它也使得它更清楚各年龄组中正好落在:

setDT(data)[age <1, agegroup := "0-1"]
data[age >0 & age <5, agegroup := "1-4"]
data[age >4 & age <10, agegroup := "5-9"]
data[age >9 & age <15, agegroup := "10-14"]
data[age >14 & age <20, agegroup := "15-19"]
data[age >19 & age <25, agegroup := "20-24"]
data[age >24 & age <30, agegroup := "25-29"]
data[age >29 & age <35, agegroup := "30-34"]
data[age >34 & age <40, agegroup := "35-39"]
data[age >39 & age <45, agegroup := "40-44"]
data[age >44 & age <50, agegroup := "45-49"]
data[age >49 & age <55, agegroup := "50-54"]
data[age >54 & age <60, agegroup := "55-59"]
data[age >59 & age <65, agegroup := "60-64"]
data[age >64 & age <70, agegroup := "65-69"]
data[age >69 & age <75, agegroup := "70-74"]
data[age >74 & age <80, agegroup := "75-79"]
data[age >79 & age <85, agegroup := "80-84"]
data[age >84, agegroup := "85+"]

虽然这两种方法应该产生相同的结果,我更喜欢第一次一个有两个原因。 (a)为缩短编写和(2)各年龄组以正确的方式,这是至关重要的,当涉及到可视化的数据排序。



Answer 3:

比方说,你的年龄分别存放在数据帧列标记age 。 你的数据帧是df ,并且希望新列age_grouping包含“桶”,你的年龄里钻

在这个例子中,假设你的年龄范围从0 - > 100,和你想给他们组每10年。 下面的代码将被存储在一个新的这些时间完成这个age grouping的列:

df$age_grouping <- cut(df$age, c(0:100, 10))


Answer 4:

myData$age_grp <- myData$age
myData$age_grp <- ifelse((myData$age>=10 & myData$age<=18) , 'minnor',myData$age_grp)
myData$age_grp <- ifelse((myData$age>18 & myData$age<=21) , 'junior',myData$age_grp)
myData$age_grp <- ifelse((myData$age>21 & myData$age<=25) , 'major_1',myData$age_grp)
myData$age_grp <- ifelse((myData$age>25 & myData$age<=30) , 'major_2',myData$age_grp)
myData$age_grp <- ifelse((myData$age>30 & myData$age<=40) , 'major_3',myData$age_grp)
myData$age_grp <- ifelse((myData$age>40 & myData$age<=55) , 'major_4',myData$age_grp)
myData$age_grp <- ifelse((myData$age>55) , 'minnor',myData$age_grp)
myData$age_grp<-as.factor(myData$age_grp)
summary(myData$age_grp)
library(dplyr)
myData <- select(myData, -(age) )


文章来源: R code to categorize age into group/ bins/ breaks