如何通过比较两个字符串向量来过滤 Dataframe ？

tmb3ates 于 2023-03-05 发布在其他

关注(0)|答案(4)|浏览(124)

我有一个包含两个字符串向量的 Dataframe ，例如

Xsz<-c("A", "B", "C")
Xal<-c("A|B", "A|C", "B|C")
XDF<-data.frame(Xsz,Xal)

我想过滤这些行，其中第一列（Xsz）中的字符串出现在第二列（本例中为第1行和第3行）
我试过这个：

XDF %>%
  filter(Xsz %in% Xal)

或者这个：

XDF %>%
  filter(grep(Xsz, Xal))

但是他们做的不一样，实际的 Dataframe 当然不是3行长，而是像60M ...：-）
谢谢您的建议!

来源：https://stackoverflow.com/questions/75603041/how-to-filter-a-dataframe-by-comparing-two-string-vectors

4条答案

按热度按时间

wtlkbnrh1#

基本R方法是使用apply进行索引，其中grepl跨行：

XDF[apply(XDF, 1, function(x) grepl(x[2], x[1])),]

#  Xsz Xal
#1   A A|B
#3   C B|C

赞(0）回复(0）举报 2023-03-05

iih3973s2#

看起来你想用Xal作为正则表达式的模式。你不能很容易地用grepl来做这个，因为它一次搜索一个模式，你有一个模式向量。你可以用stringr::str_detect()来代替。

library(tidyverse)       
Xsz<-c("A", "B", "C")
Xal<-c("A|B", "A|C", "B|C")
XDF<-data.frame(Xsz,Xal)  

XDF %>%
  filter(str_detect(Xsz, pattern = Xal))
#>   Xsz Xal
#> 1   A A|B
#> 2   C B|C

创建于2023年3月1日，使用reprex v2.0.2

赞(0）回复(0）举报 2023-03-05

w1e3prcc3#

另一个基本R选项使用sapply和grepl，如下所示：

XDF[diag(sapply(XDF$Xsz, \(x) grepl(x, XDF$Xal, fixed = TRUE))),]
#>   Xsz Xal
#> 1   A A|B
#> 3   C B|C

创建于2023年3月1日，使用reprex v2.0.2

赞(0）回复(0）举报 2023-03-05

c9qzyr3d4#

如果需要完全匹配，您可以

XDF %>% group_by(Xsz) %>% filter(Xsz %in% strsplit(Xal, "|")[[1]])

- 结果**

# A tibble: 2 × 2
# Groups:   Xsz [2]
  Xsz   Xal  
  <chr> <chr>
1 A     A|B  
2 C     B|C

- 数据**

XDF <- data.frame(
  Xsz = c("A", "B", "C", "AA"),
  Xal = c("A|B", "A|C", "B|C", "A|B")
)

赞(0）回复(0）举报 2023-03-05

我来回答

如何通过比较两个字符串向量来过滤 Dataframe ？

4条答案

相关问题

热门标签

最新问答