如何在hdfs文件上执行自定义c++二进制文件

xxslljrj 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(384)

我有自定义的c二进制文件，它读取原始数据文件并编写派生数据文件。文件大小以100GB为单位。此外，我希望并行处理多个100gb文件，并生成派生元数据的物化视图。因此，map-reduce范式似乎更具可伸缩性。
我是hadoop生态系统的新手。我用ambari在aws上建立了一个hadoop集群。我在每个数据节点上构建了自定义的c二进制文件，并将原始数据文件加载到hdfs上。在hdfs文件上执行这个二进制文件的选项是什么？

hadoop Hive apache-spark hadoop2 bigdata

来源：https://stackoverflow.com/questions/56317012/how-to-execute-custom-c-binary-on-hdfs-file