有没有一种不用下载就可以使用pyspark来处理json文件foms3 bucket的方法？

fnatzsnv 于 2021-05-24 发布在 Spark

关注(0)|答案(1)|浏览(326)

我在一个特定的s3 bucket文件夹中有一些大的json文件。每个文件每行包含json对象。我尝试使用spark.read.json（s3a://bucket/prefix/file.json）下载它，但出现了“内容长度分隔消息体过早结束”错误。
我想知道在阅读json时，是否有办法处理json中的空行？
我们如何逐行读取json并处理它？最后，我需要使用json数据进行一些事件分析。
我们能在不下载的情况下处理/分析来自s3本身的json吗？
我正在使用spark2.4.7和hadoop发行版2.7.1、java1.8和python3.7

JSON python apache-spark pyspark amazon-s3

来源：https://stackoverflow.com/questions/64168834/is-there-a-way-to-process-a-json-file-fom-s3-bucket-using-pyspark-without-downlo

1条答案

按热度按时间

carvr3hs1#

试试这个：

spark.read.option(
    "multiLine", true
).option(
    "mode", "PERMISSIVE"
).json("/path/file.json")

赞(0）回复(0）举报 2021-05-25

我来回答

有没有一种不用下载就可以使用pyspark来处理json文件foms3 bucket的方法？

1条答案

相关问题

热门标签

最新问答