我有固定宽度的文件,如下
00120181120xyz12341
00220180203abc56792
00320181203pqr25483
以及指定模式的相应 Dataframe (表示列名(_Name)和列宽(_Long):
如何使用PySpark获取文本文件DataFrame,如下所示:
# +---+----+--+
# |C1| C2 |C3|
# +--+-----+--+
# | 0|02018|11|
# | 0|02018|02|
# | 0|02018|12|
# +--+-----+--+
1条答案
按热度按时间e4yzc0pl1#
您可以:
collect
您的列名和长度;输入:
脚本:
如果您有一个列可以在
orderBy
中用于窗口函数,那么只使用DataFrame API就可以实现这样的操作。