我有一个pyspark Dataframe 作为
DOCTOR | PATIENT
JOHN | SAM
JOHN | PETER
JOHN | ROBIN
BEN | ROSE
BEN | GRAY
并且需要按行连接患者姓名,以便获得如下输出:
DOCTOR | PATIENT
JOHN | SAM, PETER, ROBIN
BEN | ROSE, GRAY
任何人都可以帮助我在pyspark中创建这个 Dataframe 吗?
先谢了。
我有一个pyspark Dataframe 作为
DOCTOR | PATIENT
JOHN | SAM
JOHN | PETER
JOHN | ROBIN
BEN | ROSE
BEN | GRAY
并且需要按行连接患者姓名,以便获得如下输出:
DOCTOR | PATIENT
JOHN | SAM, PETER, ROBIN
BEN | ROSE, GRAY
任何人都可以帮助我在pyspark中创建这个 Dataframe 吗?
先谢了。
3条答案
按热度按时间neskvpey1#
我能想到的最简单的方法是使用
collect_list
368yc8dk2#
下面是一些有用的聚合示例
watbbzwu3#
使用Spark SQL,我可以做到:
SELECT第1列,第2列,第3列,REPLACE(REPLACE(CAST(collect_list(col4)AS string),"[",””),"]",””)从您的表中按第1列,第2列,第3列分组