是否有dplyr等价于data.table::rleid?

cngwdvgl  于 2023-02-06  发布在  其他
关注(0)|答案(6)|浏览(164)

data.table提供了一个非常方便的函数,rleid用于游程编码:

library(data.table)
DT = data.table(grp=rep(c("A", "B", "C", "A", "B"), c(2, 2, 3, 1, 2)), value=1:10)
rleid(DT$grp)
# [1] 1 1 2 2 3 3 3 4 5 5

我可以在基本R中使用以下代码模拟:

df <- data.frame(DT)
rep(seq_along(rle(df$grp)$values), times = rle(df$grp)$lengths)
# [1] 1 1 2 2 3 3 3 4 5 5

有人知道dplyr的等价物吗?或者用dplyr创建rleid行为的“最佳”方法是执行类似以下的操作

library(dplyr)

my_rleid = rep(seq_along(rle(df$grp)$values), times = rle(df$grp)$lengths)

df %>%
  mutate(rleid = my_rleid)
sr4lhrrt

sr4lhrrt1#

您可以执行以下操作(当同时加载data.tabledplyr时):

DT <- DT %>% mutate(rlid = rleid(grp))

这给出:

> DT
    grp value rlid
 1:   A     1    1
 2:   A     2    1
 3:   B     3    2
 4:   B     4    2
 5:   C     5    3
 6:   C     6    3
 7:   C     7    3
 8:   A     8    4
 9:   B     9    5
10:   B    10    5

如果你不想单独加载data.table,你也可以使用(@DavidArenburg在评论中提到):

DT <- DT %>% mutate(rlid = data.table::rleid(grp))

正如@RichardScriven在评论中所说,你可以复制/窃取它:

myrleid <- data.table::rleid
wtzytmuj

wtzytmuj2#

如果只想使用base R和dplyr,更好的方法是将自己的一行或两行版本的rleid() Package 为函数,然后在需要时应用它。

library(dplyr)

myrleid <- function(x) {
    x <- rle(x)$lengths
    rep(seq_along(x), times=x)
}

## Try it out
DT <- DT %>% mutate(rlid = myrleid(grp))
DT
#   grp value rlid
# 1:   A     1    1
# 2:   A     2    1
# 3:   B     3    2
# 4:   B     4    2
# 5:   C     5    3
# 6:   C     6    3
# 7:   C     7    3
# 8:   A     8    4
# 9:   B     9    5
#10:   B    10    5
n3h0vuf2

n3h0vuf23#

您可以使用dplyr中的lag函数来执行此操作。

DT <-
    DT %>%
    mutate(rleid = (grp != lag(grp, 1, default = "asdf"))) %>%
    mutate(rleid = cumsum(rleid))

给予

> DT
    grp value rleid
 1:   A     1     1
 2:   A     2     1
 3:   B     3     2
 4:   B     4     2
 5:   C     5     3
 6:   C     6     3
 7:   C     7     3
 8:   A     8     4
 9:   B     9     5
10:   B    10     5
juzqafwq

juzqafwq4#

业务方案所用办法的简化(不涉及额外的一揽子办法)可以是:

DT %>%
 mutate(rleid = with(rle(grp), rep(seq_along(lengths), lengths)))

   grp value rleid
1    A     1     1
2    A     2     1
3    B     3     2
4    B     4     2
5    C     5     3
6    C     6     3
7    C     7     3
8    A     8     4
9    B     9     5
10   B    10     5

或者:

DT %>%
 mutate(rleid = rep(seq(ls <- rle(grp)$lengths), ls))
wfveoks0

wfveoks05#

v1.1.0dplyr添加了根据data.table::rleid()建模的函数consecutive_id(),具有相同的多个向量支持和NA值处理。

library(dplyr)
 
 DT %>%
   mutate(id = consecutive_id(grp)) 

    grp value id
 1:   A     1  1
 2:   A     2  1
 3:   B     3  2
 4:   B     4  2
 5:   C     5  3
 6:   C     6  3
 7:   C     7  3
 8:   A     8  4
 9:   B     9  5
10:   B    10  5
ws51t4hk

ws51t4hk6#

这里有很多非常好的解决方案,但是我想指出的是,当数据具有NAs时,有些解决方案不会给出与data.table::rleid()相同的结果。请记住,每次发生变化时,data.table::rleid()都会递增,包括NAs

    • 数据:**
library(data.table)
library(dplyr)

# Data
DT2 = data.table(grp=rep(c("A", "B", NA, "C", "A", NA, "B", NA), c(2, 2, 2, 3, 1, 1, 2, 1)), value=1:14)
df <- data.frame(DT2)

# data.table reild
DT2[, rleid := rleid(DT2$grp)]
DT2
#>      grp value rleid
#>  1:    A     1     1
#>  2:    A     2     1
#>  3:    B     3     2
#>  4:    B     4     2
#>  5: <NA>     5     3
#>  6: <NA>     6     3
#>  7:    C     7     4
#>  8:    C     8     4
#>  9:    C     9     4
#> 10:    A    10     5
#> 11: <NA>    11     6
#> 12:    B    12     7
#> 13:    B    13     7
#> 14: <NA>    14     8

例如,Alex的解决方案非常适合OP,但在处理NAs时,不能给出与data.table::rleid()相同的结果:

# Alex's solution
df %>% 
  mutate(rleid = (grp != lag(grp, 1, default = "asdf"))) %>%
  mutate(rleid = cumsum(rleid))
#>     grp value rleid
#> 1     A     1     1
#> 2     A     2     1
#> 3     B     3     2
#> 4     B     4     2
#> 5  <NA>     5    NA
#> 6  <NA>     6    NA
#> 7     C     7    NA
#> 8     C     8    NA
#> 9     C     9    NA
#> 10    A    10    NA
#> 11 <NA>    11    NA
#> 12    B    12    NA
#> 13    B    13    NA
#> 14 <NA>    14    NA

下面是一个易于阅读和理解的tidyverse(虽然速度较慢)等效于data.table::rleid()

# like rleid()
df %>% 
  mutate(
    rleid = cumsum(
      ifelse(is.na(grp), "DEFAULT", grp) != lag(ifelse(is.na(grp), "DEFAULT", grp), default = "DEFAULT")
    )
  )
#>     grp value rleid
#> 1     A     1     1
#> 2     A     2     1
#> 3     B     3     2
#> 4     B     4     2
#> 5  <NA>     5     3
#> 6  <NA>     6     3
#> 7     C     7     4
#> 8     C     8     4
#> 9     C     9     4
#> 10    A    10     5
#> 11 <NA>    11     6
#> 12    B    12     7
#> 13    B    13     7
#> 14 <NA>    14     8

下面是一个易于阅读和理解的tidyverse等效于data.table::rleid(),但忽略了NAs

# like rleid() but ignoring NAs
df %>% 
 mutate(
    rleid = cumsum(
      (!is.na(grp)) & (grp != lag(ifelse(is.na(grp), "DEFAULT", grp), default = "DEFAULT"))
    )
 )
#>     grp value rleid
#> 1     A     1     1
#> 2     A     2     1
#> 3     B     3     2
#> 4     B     4     2
#> 5  <NA>     5     2
#> 6  <NA>     6     2
#> 7     C     7     3
#> 8     C     8     3
#> 9     C     9     3
#> 10    A    10     4
#> 11 <NA>    11     4
#> 12    B    12     5
#> 13    B    13     5
#> 14 <NA>    14     5

创建于2022年8月27日,使用reprex v2.0.2

相关问题