根据其它列和相关非零值的个数过滤 Dataframe

lokaqttq 于 2024-01-03 发布在其他

关注(0)|答案(2)|浏览(104)

假设我有以下名为df的 Dataframe ：

df<- data.frame("id" = c(1,1,1,2,2,2,3,3,3,4,4,4,5,5),
                "relation" =c(1,2,3,1,2,3,1,2,3,1,2,3,1,2), 
                "salary" =c(20,10,0,30,0,0,10,0,0,40,45,42,15,0))

字符串
我想提取两个数据框架，如果一个家庭是两个收入者或一个收入者。那些家庭成员至少有两个非零工资的家庭被认为是两个收入者，但是那些只有一个非零工资的家庭被认为是一个收入者。我的期望输出如下：

one-earner : 
 id relation salary
1  2        1     30
2  2        2      0
3  2        3      0
4  3        1     10
5  3        2      0
6  3        3      0
7  5        1     15
8  5        2      0
two-earner:
id relation salary
1  1        1     20
2  1        2     10
3  1        3      0
4  4        1     40
5  4        2     45
6  4        3     42

型
我尝试了下面的代码，但我不知道如何指定不同的非零工资数的家庭：

two_earner <- df %>%
  group_by(address) %>%
  filter(all(salary >=2 ))
one_earner <- df %>%
  group_by(address) %>%
  filter(all(salary ==1 ))

型

来源：https://stackoverflow.com/questions/77661797/filtering-data-frame-based-on-other-column-and-the-number-of-related-non-zero-va

2条答案

按热度按时间

hlswsv351#

library(dplyr)
df |>
  mutate(group = ifelse(sum(salary > 0) >= 2, "two-earners", "one-earner"), .by = id) |>
  split(~ group)

字符串
我更喜欢使用基R split而不是dR group_split()，因为前者返回组的名称。

输出

这将返回一个命名列表：

$`one-earner`
   id relation salary      group
4   2        1     30 one-earner
5   2        2      0 one-earner
6   2        3      0 one-earner
7   3        1     10 one-earner
8   3        2      0 one-earner
9   3        3      0 one-earner
13  5        1     15 one-earner
14  5        2      0 one-earner
$`two-earners`
   id relation salary       group
1   1        1     20 two-earners
2   1        2     10 two-earners
3   1        3      0 two-earners
10  4        1     40 two-earners
11  4        2     45 two-earners
12  4        3     42 two-earners

型

展开查看全部

赞(0）回复(0）举报 2024-01-03

xkftehaa2#

我认为如果mean(salary > 0) > 1/2。

> split(df, with(df, ave(salary, id, FUN=\(x) mean(x > 0) > 1/2))) |>
+   setNames(c('one', 'two'))
$one
   id relation salary
4   2        1     30
5   2        2      0
6   2        3      0
7   3        1     10
8   3        2      0
9   3        3      0
13  5        1     15
14  5        2      0
$two
   id relation salary
1   1        1     20
2   1        2     10
3   1        3      0
10  4        1     40
11  4        2     45
12  4        3     42

字符串

数据类型：*

> dput(df)
structure(list(id = c(1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4, 5, 
5), relation = c(1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2), salary = c(20, 
10, 0, 30, 0, 0, 10, 0, 0, 40, 45, 42, 15, 0)), class = "data.frame", row.names = c(NA, 
-14L))

型

展开查看全部

赞(0）回复(0）举报 2024-01-03

我来回答

根据其它列和相关非零值的个数过滤 Dataframe

2条答案

相关问题

热门标签

最新问答