我正在寻找一种方法来做到这一点没有自定义项,我想知道它是否可能。假设我有一个df,如下所示:
Buyer_name Buyer_state CoBuyer_name CoBuyers_state Price Date
Bob CA Joe CA 20 010119
Stacy IL Jamie IL 50 020419
... about 3 millions more rows...
我想把它变成:
Buyer_name Buyer_state Price Date
Bob CA 20 010119
Joe CA 20 010119
Stacy IL 50 020419
Jamie IL 50 020419
...
编辑:我也可以,
创建两个Dataframe,从一个Dataframe中删除“buyer”列,从另一个Dataframe中删除“cobuyer”列。
将带有“cobuyer”列的dataframe重命名为“buyer”列。
连接两个Dataframe。
2条答案
按热度按时间y53ybaqx1#
你可以分组
struct(Buyer_name, Buyer_state)
以及struct(CoBuyer_name, CoBuyer_state)
变成一个Array
然后使用explode
,如下图:qc6wkl3g2#
对我来说,这听起来像是一个可以通过
union
scala中的函数:感谢leo提供了我使用的Dataframe定义。