我在python中对大数据的执行时间有一个问题,这就是为什么我去spark获得时间,但是在spark中执行时,它给了我同样的时间!!没什么新鲜事
我有第一个json文件(a),我把它加载到dataframe中
[
{"id": "22692801",
"num": ["25857963","25698556"],
"wil": "oha"},
{"id": "26692822",
"num": ["1010101066","25857963","1010101066","2569852344","24856795","24856795"],
"wil": "ny"}
]
我的第二个json文件(b)是
[
{"id": "22692855",
"num": ["1010101066","2569852344"],
"wil": "mis"},
{"id": "26692822",
"num": ["1010101066","2569852344","2485679588","2485679575"],
"wil": "ny"}
]
其思想是通过比较每个“num”数组来比较a的每一行和b的每一行,这样a['num]的每个元素将与所有b[“num”]进行比较,并返回一个在两个id之间公共的“num”,同时比较“wil”
我在python中的代码是由循环组成的,我做了4个嵌套循环来完成这项工作,但是我不认为spark使用相同的方法,我想知道做这件事的最佳方法是什么,以及如何并行化?
谢谢你的回复
暂无答案!
目前还没有任何答案,快来回答吧!