我已经通读了这个问题的各种变体及其相关的答案,但没有找到解决我的特定问题的方法。我相信这个问题的答案对其他人也有帮助。
我试图在hadoop流框架中使用pythonMap器和reducer定义一种概念性方法来计算单个字段中一系列数字的中值。
假设我们有一个包含20个字段和400万行的csv。我们怎么计算场的中值呢,我们称之为 number
,它保存一个值(例如。 307, 212, 719, 2123, 77, 398
等等)?
我知道一些使用纯python和pandas的方法,但是它们不能在hadoop流框架中进行转换。谢谢您。
暂无答案!
目前还没有任何答案,快来回答吧!