通过与名称的矢量突变创建多个新列(Pass a vector with names to mutat

2019-09-26 06:30发布

我试图重新编码使用包含正确答案的向量的答案。 我做了一个for循环,建立在每个循环利用与新列可能的名字载体的新列(与编码的答案)。

然而,似乎发生变异不名接收向量。 我已经尝试了一些不同的载体和一些paste0()组合,但没有什么似乎工作。

这里是我的reproduceable代码:

library(dplyr)
library(tibble)

correct = c(4, 5, 2, 2, 2, 3, 3, 5, 4, 5, 2, 1, 3, 4, 2, 2, 2, 4, 3, 1, 1, 5, 4, 1, 3, 2)

sub1 = c(3, 5, 1, 5, 4, 3, 2, 5, 4, 3, 4, 4, 4, 1, 5, 1, 4, 3, 3, 4, 3, 2, 4, 2, 3, 4)

df = t(data.frame(sub1))
colnames(df) = paste0("P", 1:26)

new_names = paste0("P", 1:26, "_coded")

for(i in 1:26){


  df = as.tibble(df) %>% 
    mutate(new_names = case_when(.[i] == correct[i] ~ 1, 
                     .[i] != correct[i] ~ 0, 
                     T ~ 9999999))

  print(df) # to know what's going on.

}

另外,我知道.dots可沿矢量(我认为)收到的名字,但我不太明白如何与case_when使用它里面发生变异()。

其他方面与重新编码值创建新列的欢迎也

UPDATE:我的预期输出将与26个新的列中的原始数据帧,P1_COD:与可能的值1(如果正确的)和0 P26_COD(如果不正确)。

像这样的东西(我刚刚创建四列用1和0为例)。

df %>% 
  mutate(P1_COD = 1,
         P2_COD = 0,
         P3_COD = 1,
         P4_COD = 1)

Answer 1:

该数据不是一个格式dplyr将处理最好。 我建议你的数据重组,以纵向格式,然后将case_when变得微不足道,没有对需要循环。

看到tidyr关于数据格式的其他文件在tidyverse.org文档

下面是包括你样品数据中的“纵向”的格式的一个例子。 我还添加了几个其他科目的随机答案。

library(tidyverse)
responses <- data_frame(
  subject = rep(1:3, each = 26),
  qNum = rep(1:26, 3),
  response = c(sub1, 
               sample(5, 26, replace = T),
               sample(5, 26, replace = T)))

可以创建这些问题的答案,然后合并:

answers <- data_frame(
  qNum = 1:26,
  answer = correct)
df <- left_join(responses, answers)

接下来,使用得分答案dplyr::case_when

df <- df %>% mutate(score = case_when(response == answer ~ 1,
                                TRUE ~ 0))

注意: TRUE ~ 0可能会产生混淆在第一。 它告诉如何处理剩下的值,如果第一个条件为FALSE。 将所得的DF / tibble:

# A tibble: 26 x 5
   subject  qNum response answer score
     <dbl> <int>    <dbl>  <dbl> <dbl>
 1       1     1        3      4     0
 2       1     2        5      5     1
 3       1     3        1      2     0
 4       1     4        5      2     0
 5       1     5        4      2     0
 6       1     6        3      3     1
 7       1     7        2      3     0
 8       1     8        5      5     1
 9       1     9        4      4     1
10       1    10        3      5     0
# ... with 16 more rows

如果你想将其转换为“宽”的格式,使用tidyr::spread

df %>%
  select(-response, -answer) %>% 
  spread(qNum, score, sep = ".")
# A tibble: 3 x 27
  subject qNum.1 qNum.2 qNum.3 qNum.4 qNum.5 qNum.6 qNum.7 qNum.8 qNum.9 qNum.10
*   <int>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>   <dbl>
1       1      0      1      0      0      0      1      0      1      1       0
2       2      0      0      0      0      1      0      0      0      0       0
3       3      0      0      0      0      1      0      0      0      0       0


文章来源: Pass a vector with names to mutate to create multiple new columns
标签: r dplyr