如何使用mapreduce处理大型数据集

dvtswwa3  于 2021-06-03  发布在  Hadoop
关注(0)|答案(0)|浏览(216)

有谁能帮我找到一个方法,为下面的情况。
我试图探索hadoop和hadoop相关的工具。我想开发一个小型的mapreduce应用程序,它应该从hdfs读取输入feed文件并准备一些数据,从hive读取数据并准备一些数据,然后比较这两个数据集以找出数据的准确性。
最好的方法是什么?我们如何在mapreduce中做到这一点?
注意:我不想把所有数据(从feed文件收集的数据和从hive收集的数据)都保存在内存或缓冲区中。因为我使用的是低配置的机器,无法在ram内存中存储大量数据。
谢谢你,拉姆。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题