我有一个有几列的数据框。第i列包含字符串。我要应用字符串 sliding(n)
函数中的每个字符串。有没有不使用用户定义函数的方法?
示例:我的Dataframe是
var df = Seq((0, "hello"), (1, "hola")).toDF("id", "text")
我想申请 sliding(3)
函数到列的每个元素 "text"
获取对应于
Seq(
(0, ("hel", "ell", "llo"))
(1, ("hol", "ola"))
)
我该怎么做?
1条答案
按热度按时间anhgbhbe1#
对于spark版本>=2.4.0,这可以使用内置函数完成
array_repeat
,transform
以及substring
.