在PySpark中有没有一种方法可以同时分解所有列中的数组/列表,并将分解后的数据分别合并/压缩到行中?
列数可以是动态的,取决于其他因素。
来自 Dataframe
|col1 |col2 |col3 |
|[a,b,c]|[d,e,f]|[g,h,i]|
|[j,k,l]|[m,n,o]|[p,q,r]|
到 Dataframe
|col1|col2|col3|
|a |d |g |
|b |e |h |
|c |f |i |
|j |m |p |
|k |n |q |
|l |o |r |
3条答案
按热度按时间ne5o7dgx1#
下面是使用
rdd
和flatMap()
执行此操作的一种方法:gpfsuwkq2#
试试这个
nbysray53#