在pysparkDataframe中,我想将一个字符串完整的文件路径转换为每个父路径的多行。
输入Dataframe值:
ParentFolder/Folder1/Folder2/Folder3/Folder4/TestFile.txt
输出:每一行都应该显示一个绝对路径以及 /
分隔符
ParentFolder/
ParentFolder/Folder1/
ParentFolder/Folder1/Folder2/
ParentFolder/Folder1/Folder2/Folder3/
ParentFolder/Folder1/Folder2/Folder3/Folder4/
ParentFolder/Folder1/Folder2/Folder3/Folder4/TestFile.txt
2条答案
按热度按时间l0oc07j21#
可以拆分列
value
由/
分隔符以获取路径的所有部分。然后使用transform
函数,可以使用slice
以及array_join
功能:对于spark<2.4,可以这样使用udf:
3xiyfsfu2#
你可以用
substring_index
具体如下: