pyspark并行处理数据最佳实践

2admgd59  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(321)

我在python中对大数据的执行时间有一个问题,这就是为什么我去spark获得时间,但是在spark中执行时,它给了我同样的时间!!没什么新鲜事
我有第一个json文件(a),我把它加载到dataframe中

[
        {"id": "22692801",
        "num": ["25857963","25698556"],
        "wil": "oha"},
        {"id": "26692822",
        "num": ["1010101066","25857963","1010101066","2569852344","24856795","24856795"],
        "wil": "ny"}
]

我的第二个json文件(b)是

[
        {"id": "22692855",
        "num": ["1010101066","2569852344"],
        "wil": "mis"},
        {"id": "26692822",
        "num": ["1010101066","2569852344","2485679588","2485679575"],
        "wil": "ny"}
]

其思想是通过比较每个“num”数组来比较a的每一行和b的每一行,这样a['num]的每个元素将与所有b[“num”]进行比较,并返回一个在两个id之间公共的“num”,同时比较“wil”
我在python中的代码是由循环组成的,我做了4个嵌套循环来完成这项工作,但是我不认为spark使用相同的方法,我想知道做这件事的最佳方法是什么,以及如何并行化?
谢谢你的回复

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题