我有一个pysparkDataframe,有n列(列1,列2。。。。。。第n列)。我必须再添加一列,列集合以逗号分隔。
条件:如果两个或多个列有值,则填充集合列中以逗号分隔的值,例如在三个列的数据下面。
----------------------------------------------------------------------
| column_1 | column_2 | column_3 | col collections |
----------------------------------------------------------------------
| - | - | - | - |
------------------------------------------ ---------------------------
| 1 | - | - | - |
------------------------------------------ ---------------------------
| - | 1 | - | - |
------------------------------------------ ---------------------------
| - | - | 1 | - |
------------------------------------------ ---------------------------
| 1 | 1 | - | column_1,column_2 |
----------------------------------------------------------------------
| 1 | 1 | 1 | column_1,column_2,column_3 |
----------------------------------------------------------------------
| 1 | - | - | - |
----------------------------------------------------------------------
| - | 1 | 1 | column_2,column_3 |
----------------------------------------------------------------------
1条答案
按热度按时间yzckvree1#
这里有一个解决方案。