我有两个 RDD
想要合并成一个 RDD
具体如下:
rdd_1 = ['a1', 'a2', 'a3', 'a4', 'a5', ]
rdd_2 = ['b1', 'b2', 'b3', 'b4', 'b5', ]
# concat and combine these two rdd into one
rdd = ['a1_b1', 'a2_b2', 'a3_b3', 'a4_b4', 'a5_b5']
我知道我可以改变这两个 RDD
进入 DataFrame
把它粘进去 spark.sql
如下所示:
df = df.withColumn('col1_col2', concat(col('col1'), lit(' '), col('col2')))
但对于十亿级的样品来说,这是不够有效的。
所以我想知道有没有更快的办法进去 RRD
编程。
2条答案
按热度按时间brqmpdu11#
从列表中创建RDD,然后对两个RDD进行压缩,然后使用map和join迭代这个和concat。
a9wyjsp72#
我想我们应该齐心协力加入:
或者没有
lambda
:例子: