我有自定义的c二进制文件,它读取原始数据文件并编写派生数据文件。文件大小以100GB为单位。此外,我希望并行处理多个100gb文件,并生成派生元数据的物化视图。因此,map-reduce范式似乎更具可伸缩性。我是hadoop生态系统的新手。我用ambari在aws上建立了一个hadoop集群。我在每个数据节点上构建了自定义的c二进制文件,并将原始数据文件加载到hdfs上。在hdfs文件上执行这个二进制文件的选项是什么?
30byixjq1#
hadoop流是作为mapreduce运行非java应用程序的最简单方法。有关更多详细信息,请参阅hadoop流。
1条答案
按热度按时间30byixjq1#
hadoop流是作为mapreduce运行非java应用程序的最简单方法。
有关更多详细信息,请参阅hadoop流。