无法读取pyspark中的mongodb数据(json)

7qhs6swi  于 2021-06-25  发布在  Hive
关注(0)|答案(1)|浏览(513)

我正在通过pymongo连接mongodb数据库,并以json格式在db外部获取它,达到了预期的效果。但是我的任务是我需要通过pyspark创建一个配置单元表,我发现mongodb提供了spark不支持的json(rf719),当我尝试在pyspark(dataframe)中加载数据时,它显示为损坏的记录。如果有任何在python中转换json格式的方法也可以,请给出一个建议

nr7wwzry

nr7wwzry1#

将带有open('d:/json/aaa.json')的json导入为f:d=f.read()da=''.join(d.split())print(type(da))print(da)daa=da.replace('u'','')daaa=json.loads(daa)print(daaa)对答案满意。结束这个问题

相关问题