有谁能帮我找到一个方法,为下面的情况。我试图探索hadoop和hadoop相关的工具。我想开发一个小型的mapreduce应用程序,它应该从hdfs读取输入feed文件并准备一些数据,从hive读取数据并准备一些数据,然后比较这两个数据集以找出数据的准确性。最好的方法是什么?我们如何在mapreduce中做到这一点?注意:我不想把所有数据(从feed文件收集的数据和从hive收集的数据)都保存在内存或缓冲区中。因为我使用的是低配置的机器,无法在ram内存中存储大量数据。谢谢你,拉姆。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!