R语言如何从数组的子集中逐行计数不同值的个数？

4smxwvx5 于 2023-09-27 发布在其他

关注(0)|答案(4)|浏览(89)

我有一个这样的 Dataframe ：

df = read.table(text="ID    L1  L2  L3  L4  L5  L6  L7  L8  S1  S2  S3  S4  S5  S6  S7  S8
            T1  0   0   0   0   0   0   0   2   2   2   2   2   2   2   2   2
            T2  0   0   0   0   0   0   0   0   0   1   2   2   2   2   2   2
            T3  0   0   0   0   0   0   0   0   0   1   2   2   2   2   2   2
            T4  0   0   0   1   0   0   0   0   0   1   2   2   1   1   1   1
            T5  0   0   0   0   0   0   0   0   0   1   2   2   2   2   2   2
            T6  0   0   0   0   0   0   0   0   0   1   2   2   2   2   2   2
            T7  0   0   0   0   0   0   0   0   0   1   2   2   2   2   2   2
            T8  0   0   0   0   0   0   0   0   0   1   2   0   0   0   0   0
            T9  0   0   0   0   0   0   0   0   2   2   2   2   2   2   2   2", header=T, stringsAsFactors=F)

我想在两个有列的子集中分别按行计数“0”、“1”和“2”：grep（“^L”，names（df））或grep（“^S”，names（df））。然后用两个子集中的最大值数创建两个新列。结果是这样的：

感谢任何帮助！

来源：https://stackoverflow.com/questions/77084645/how-to-count-numbers-of-different-values-by-row-from-subsets-of-dataframe

4条答案

按热度按时间

s71maibg1#

对我来说，最简单的方法是将数据旋转得更长，将所有S和L值分别放在一列中。然后，您可以按ID进行分组，并在组内找到L和S的模态值。我做了一个叫做“modal”的小函数来查找模态值。

df = read.table(text="ID    L1  L2  L3  L4  L5  L6  L7  L8  S1  S2  S3  S4  S5  S6  S7  S8
            T1  0   0   0   0   0   0   0   2   2   2   2   2   2   2   2   2
            T2  0   0   0   0   0   0   0   0   0   1   2   2   2   2   2   2
            T3  0   0   0   0   0   0   0   0   0   1   2   2   2   2   2   2
            T4  0   0   0   1   0   0   0   0   0   1   2   2   1   1   1   1
            T5  0   0   0   0   0   0   0   0   0   1   2   2   2   2   2   2
            T6  0   0   0   0   0   0   0   0   0   1   2   2   2   2   2   2
            T7  0   0   0   0   0   0   0   0   0   1   2   2   2   2   2   2
            T8  0   0   0   0   0   0   0   0   0   1   2   0   0   0   0   0
            T9  0   0   0   0   0   0   0   0   2   2   2   2   2   2   2   2", header=T, stringsAsFactors=F)
library(tidyr)
library(dplyr)
modal <- function(x){tab <- table(x); names(tab)[which.max(tab)]}
df %>% 
  pivot_longer(-ID, names_pattern="([A-Z])\\d", names_to=c(".value")) %>% 
  group_by(ID) %>% 
  summarise(across(everything(), modal))
#> # A tibble: 9 × 3
#>   ID    L     S    
#>   <chr> <chr> <chr>
#> 1 T1    0     2    
#> 2 T2    0     2    
#> 3 T3    0     2    
#> 4 T4    0     1    
#> 5 T5    0     2    
#> 6 T6    0     2    
#> 7 T7    0     2    
#> 8 T8    0     0    
#> 9 T9    0     2

创建于2023-09-11使用reprex v2.0.2

展开查看全部

赞(0）回复(0）举报 2023-09-27

2cmtqfgy2#

带有aggregate + reshape的基本R选项

aggregate(
    cbind(L, S) ~ ID,
    reshape(
        setNames(df, sub("(\\d)", ".\\1", names(df))),
        direction = "long",
        idvar = "ID",
        varying = -1
    ),
    \(x) as.integer(names(which.max(table(x))))
)

这给

展开查看全部

赞(0）回复(0）举报 2023-09-27

xtupzzrd3#

您可以一次对整个部分执行table，而不是逐行执行。这样应该更快

row_mode_val <- function(df) {
  tb <- table(c(row(df)), unlist(df))
  as.numeric(colnames(tb)[max.col(tb)])
}
df %>% 
  transmute(
    ID,
    L = row_mode_val(across(starts_with('L'))),
    S = row_mode_val(across(starts_with('S'))))
#>   ID L S
#> 1 T1 0 2
#> 2 T2 0 2
#> 3 T3 0 2
#> 4 T4 0 1
#> 5 T5 0 2
#> 6 T6 0 2
#> 7 T7 0 2
#> 8 T8 0 0
#> 9 T9 0 2

使用具有10k行的数据框进行基准测试。

f1 <- function() {
  df %>% 
    transmute(
      ID,
      L = row_mode_val(across(starts_with('L'))),
      S = row_mode_val(across(starts_with('S')))) %>% 
    remove_rownames()
}
f2 <- function() {
  df |>
    summarize(L = mode(c_across(starts_with("L"))),
              S = mode(c_across(starts_with("S"))), .by = ID) %>% 
      remove_rownames()
}
# make bigger example
df <- df[sample(nrow(df), 1e4, T),] %>% 
  mutate(ID = paste0('T', row_number()))
bench::mark(f1(), f2(), max_iterations = 1,
     check = all.equal)
#> Warning: Some expressions had a GC in every iteration; so filtering is disabled.
#> # A tibble: 2 × 6
#>   expression      min   median `itr/sec` mem_alloc `gc/sec`
#>   <bch:expr> <bch:tm> <bch:tm>     <dbl> <bch:byt>    <dbl>
#> 1 f1()         81.3ms   81.3ms   12.3       25.3MB     0   
#> 2 f2()          25.1s    25.1s    0.0398   169.2MB     2.47

展开查看全部

赞(0）回复(0）举报 2023-09-27

hmtdttj44#

library(dplyr)
mode <- \(x) as.numeric(names(sort(-table(x)))[1])
df |>
  summarize(L = mode(c_across(starts_with("L"))),
            S = mode(c_across(starts_with("S"))), .by = ID)

对于每个ID，c_across将向用户定义的函数mode传递一个数字向量，该函数将返回该向量中最常出现的数字。

输出

展开查看全部

赞(0）回复(0）举报 2023-09-27

我来回答

R语言如何从数组的子集中逐行计数不同值的个数？

4条答案

相关问题

热门标签

最新问答

R语言 如何从数组的子集中逐行计数不同值的个数？

4条答案

相关问题

热门标签

最新问答

R语言如何从数组的子集中逐行计数不同值的个数？