regex 使用dplyr contains()基于多个字符串选择列

wxclj1h5  于 2023-03-31  发布在  其他
关注(0)|答案(4)|浏览(79)

我想使用 regex 表达式根据名称选择多个列。我尝试使用dplyr包的管道语法。我检查了其他主题,但只找到了关于单个字符串的答案。
对于碱R:

library(dplyr)    
mtcars[grepl('m|ar', names(mtcars))]
###                      mpg am gear carb
### Mazda RX4           21.0  1    4    4
### Mazda RX4 Wag       21.0  1    4    4

但是,它不适用于select/contains方式:

mtcars %>% select(contains('m|ar'))
### data frame with 0 columns and 32 rows

怎么啦?

2guxujil

2guxujil1#

您可以使用matches

mtcars %>%
        select(matches('m|ar')) %>%
        head(2)
 #              mpg am gear carb
 #Mazda RX4      21  1    4    4
 #Mazda RX4 Wag  21  1    4    4

根据?select文档
'matches(x,ignore.case= TRUE)':选择名称与正则表达式'x'匹配的所有变量
虽然contains可以处理单个字符串

mtcars %>% 
       select(contains('m'))
z4iuyo4d

z4iuyo4d2#

你可以使用dplyr包中的contains,如果你给予一个文本向量选项,像这样:

mtcars %>% 
       select(contains(c("m", "ar"))
piah890a

piah890a3#

您仍然可以使用基于R的grepl()

df <- mtcars[ , grepl('m|ar', names(mtcars))]

...它返回一个子集 Dataframe df,其中包含列名为mar的列

7eumitmz

7eumitmz4#

这里有一个替代方案

mtcars %>% 
    select(contains('m') | contains('ar')) %>% 
    head(2)

#             mpg am gear carb
# Mazda RX4      21  1    4    4
# Mazda RX4 Wag  21  1    4    4

相关问题