如何在hadoop/spark集群上处理(遍历)大型json文件?

szqfcxe2  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(243)

我已经寻找了一段时间,发现了很多过去的断开的示例和链接,但是我有一个2GB的json数据文件,我需要逐行处理,在每行上运行大量代码,并将重新格式化的数据保存到集群中。
我一直试图在spark2.0/pyspark中实现这一点,但运气不太好。我可以在较小的文件上执行,但在我的实际文件上,我的控制器耗尽了堆内存。
当我尝试分解文件时,这里列出了错误(spark\uu getnewargs\uuuu error),但原因明显不同,因为我没有引用列。
我现在在hortonworks的centos6,单机集群。实际上,我更多的是在寻找“我应该做什么”,而不仅仅是如何去做。我知道spark可以做到这一点,但如果有更好的方法,我也很乐意探索。

fjnneemd

fjnneemd1#

您可以使用json-serde在json文件的顶部定义一个配置单元表,然后使用配置单元或spark进行分析。

相关问题