此问题已在此处有答案:
NumPy or SciPy to calculate weighted median(5个答案)
2个月前关闭。
我有一个这样的数据框,
col1 col2
100 3
200 2
300 4
400 1
现在我想在col1上设置中位数,这样col2值将是每个col1值的权重,就像这样,
median of [100, 100, 100, 200, 200, 300, 300, 300, 300, 400] # 100 is 3 times as the weight is 3
我可以通过基于权重创建多个行来实现,但我不能允许更多的行,有没有什么方法可以更有效地做到这一点,而无需在python或pyspark中创建多个行
1条答案
按热度按时间5fjcxozz1#
重复数值,然后计算中位数