我正在aws emr中使用pyspark从mysql数据库读取kafka s3sink connector发布的100k小json文件。使用以下代码段:
ug_path='s3://datalake/raw/topics/masterdb.users_groups/partition=*/*.json'
ug=spark.read.json(ug_path)
ug.printSchema()
print("No of rows is ",ug.count())
输出: 520500
行计数不是精确的计数。
当我使用ksql(创建流并计算行数)时,它会显示实际的行数,即: 4185150
.
如何从s3加载和读取100k json文件并正确查询它们?
暂无答案!
目前还没有任何答案,快来回答吧!