使用hadoop流媒体和python计算中值

zzoitvuj  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(183)

我已经通读了这个问题的各种变体及其相关的答案,但没有找到解决我的特定问题的方法。我相信这个问题的答案对其他人也有帮助。
我试图在hadoop流框架中使用pythonMap器和reducer定义一种概念性方法来计算单个字段中一系列数字的中值。
假设我们有一个包含20个字段和400万行的csv。我们怎么计算场的中值呢,我们称之为 number ,它保存一个值(例如。 307, 212, 719, 2123, 77, 398 等等)?
我知道一些使用纯python和pandas的方法,但是它们不能在hadoop流框架中进行转换。谢谢您。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题