如何在hadoop/spark集群上处理(遍历)大型json文件？

szqfcxe2 于 2021-06-01 发布在 Hadoop

关注(0)|答案(1)|浏览(243)

我已经寻找了一段时间，发现了很多过去的断开的示例和链接，但是我有一个2GB的json数据文件，我需要逐行处理，在每行上运行大量代码，并将重新格式化的数据保存到集群中。
我一直试图在spark2.0/pyspark中实现这一点，但运气不太好。我可以在较小的文件上执行，但在我的实际文件上，我的控制器耗尽了堆内存。
当我尝试分解文件时，这里列出了错误（spark\uu getnewargs\uuuu error），但原因明显不同，因为我没有引用列。
我现在在hortonworks的centos6，单机集群。实际上，我更多的是在寻找“我应该做什么”，而不仅仅是如何去做。我知道spark可以做到这一点，但如果有更好的方法，我也很乐意探索。

hadoop apache-spark

来源：https://stackoverflow.com/questions/49134566/how-to-process-iterate-through-a-large-json-file-on-a-hadoop-spark-cluster