pyspark并行处理数据最佳实践

2admgd59 于 2021-05-29 发布在 Spark

关注(0)|答案(0)|浏览(321)

我在python中对大数据的执行时间有一个问题，这就是为什么我去spark获得时间，但是在spark中执行时，它给了我同样的时间！！没什么新鲜事
我有第一个json文件（a），我把它加载到dataframe中

[
        {"id": "22692801",
        "num": ["25857963","25698556"],
        "wil": "oha"},
        {"id": "26692822",
        "num": ["1010101066","25857963","1010101066","2569852344","24856795","24856795"],
        "wil": "ny"}
]

我的第二个json文件（b）是

[
        {"id": "22692855",
        "num": ["1010101066","2569852344"],
        "wil": "mis"},
        {"id": "26692822",
        "num": ["1010101066","2569852344","2485679588","2485679575"],
        "wil": "ny"}
]

其思想是通过比较每个“num”数组来比较a的每一行和b的每一行，这样a['num]的每个元素将与所有b[“num”]进行比较，并返回一个在两个id之间公共的“num”，同时比较“wil”
我在python中的代码是由循环组成的，我做了4个嵌套循环来完成这项工作，但是我不认为spark使用相同的方法，我想知道做这件事的最佳方法是什么，以及如何并行化？
谢谢你的回复

python apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/62301564/pyspark-parallel-processing-data-best-practices

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

pyspark并行处理数据最佳实践

暂无答案！

相关问题

热门标签

最新问答