有没有一种不用下载就可以使用pyspark来处理json文件foms3 bucket的方法?

fnatzsnv  于 2021-05-24  发布在  Spark
关注(0)|答案(1)|浏览(325)

我在一个特定的s3 bucket文件夹中有一些大的json文件。每个文件每行包含json对象。我尝试使用spark.read.json(s3a://bucket/prefix/file.json)下载它,但出现了“内容长度分隔消息体过早结束”错误。
我想知道在阅读json时,是否有办法处理json中的空行?
我们如何逐行读取json并处理它?最后,我需要使用json数据进行一些事件分析。
我们能在不下载的情况下处理/分析来自s3本身的json吗?
我正在使用spark2.4.7和hadoop发行版2.7.1、java1.8和python3.7

carvr3hs

carvr3hs1#

试试这个:

spark.read.option(
    "multiLine", true
).option(
    "mode", "PERMISSIVE"
).json("/path/file.json")

相关问题