我注意到,当我在hadoop map reduce和pyspark中聚合来自同一个csv文件的数据时,hadoop将数据分成2个分区,而pyspark将数据分成4个分区。因此,我对在hadoop中找到最大分区大小很感兴趣。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!