我在一个特定的s3 bucket文件夹中有一些大的json文件。每个文件每行包含json对象。我尝试使用spark.read.json(s3a://bucket/prefix/file.json)下载它,但出现了“内容长度分隔消息体过早结束”错误。
我想知道在阅读json时,是否有办法处理json中的空行?
我们如何逐行读取json并处理它?最后,我需要使用json数据进行一些事件分析。
我们能在不下载的情况下处理/分析来自s3本身的json吗?
我正在使用spark2.4.7和hadoop发行版2.7.1、java1.8和python3.7
1条答案
按热度按时间carvr3hs1#
试试这个: