有没有一种方法可以像下面的数据那样获取关系spark dataframe:
df = spark.createDataFrame(
[
(1, "foo"),
(2, "bar"),
],
["id", "label"]
)
df.show()
并将所有值(我不关心列名)收集到一个列中,如下所示
new_df = spark.createDataFrame(["1 foo 2 bar"], "string").toDF("new_column")
new_df.show()
我确实需要保持顺序,所以它必须是一个字符串'1 foo 2 bar',而不是'1 2 foo bar'。
有办法做到这一点吗?谢谢
2条答案
按热度按时间0lvr5msh1#
试试这个:
wecizke32#
是,尝试使用**
concat_ws()
和collect_list() + array_join()
**函数。Example: