我有一个sql.DataFrame
:
ID | Qualifier
-------------
A | "test"
A | "test2"
我想说的是:
ID | QualifierList
-------------
A | ["test", "test2"]
使用spark sql
函数。
我似乎找不到任何方法与array_join()
等任何帮助将不胜感激!
我使用的数据源比这个大得多,但是当我尝试array_join()
时,我得到了Qualifier
列中存在的值,但没有得到ID
相同的值。
1条答案
按热度按时间ru9i0ody1#
您可以使用
groupBy
函数,然后使用collect_list
聚合函数。