我有一个pysparkDataframe,它有一个复杂的列,请参阅下面的值:
ID value
1 [{"label":"animal","value":"cat"},{"label":null,"value":"George"}]
我想在pyspark dataframe中添加一个新的列,基本上将它转换为字符串列表。如果label为null,则字符串应包含“value”,如果label不为null,则字符串应为“label:value". 因此,对于上面的dataframe示例,输出应如下所示:
ID new_column
1 ["animal:cat", "George"]
1条答案
按热度按时间wbgh16ku1#
你可以用
transform
将每个数组元素转换为一个字符串,该字符串使用concat_ws
: