在aws emr中使用pyspark读取100k json文件

nkkqxpd9 于 2021-05-26 发布在 Spark

关注(0)|答案(0)|浏览(235)

我正在aws emr中使用pyspark从mysql数据库读取kafka s3sink connector发布的100k小json文件。使用以下代码段：

ug_path='s3://datalake/raw/topics/masterdb.users_groups/partition=*/*.json'
ug=spark.read.json(ug_path)
ug.printSchema()
print("No of rows is ",ug.count())

输出： 520500 行计数不是精确的计数。
当我使用ksql（创建流并计算行数）时，它会显示实际的行数，即： 4185150 .
如何从s3加载和读取100k json文件并正确查询它们？

apache-spark pyspark amazon-emr amazon-s3

来源：https://stackoverflow.com/questions/65171153/reading-100k-json-files-using-pyspark-in-aws-emr

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

在aws emr中使用pyspark读取100k json文件

暂无答案！

相关问题

热门标签

最新问答