更改map side join以减少side join得到的数据稍微多一些

ni65a41a  于 2021-05-30  发布在  Hadoop
关注(0)|答案(0)|浏览(246)

因为map side join不能分割输入文件,所以我改为减少side join以提高性能。最后性能得到了改善,但我得到了一千分之一的数据。我已经挖了好几天了,但还是没弄明白。map-side连接过程如下:userid(map key)==>reportid(reduce key)==>output
reduce端使用两个emr:emr1:userid(map key)==>userid(reduce key)此作业通过userid完成连接emr2:userid(map key)==>reportid(reducekey)==>output感谢任何建议!

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题