我在pyspark中有一个格式为(list,integer)的元组rdd。例子:
(["Hello","How","are","you"],12)
我想把它转换成rdd类型
("Hello",12), ("How",12), ("are",12), ("you",12)
7y4bm7vi1#
你可以用 flatMap :
flatMap
rdd.collect() # [(['Hello', 'How', 'are', 'you'], 12)] rdd2 = rdd.flatMap(lambda r: [(i, r[1]) for i in r[0]]) rdd2.collect() # [('Hello', 12), ('How', 12), ('are', 12), ('you', 12)]
1条答案
按热度按时间7y4bm7vi1#
你可以用
flatMap
: