数据框有4列:年、月、日、hhmm
hhmm-是小时和分钟串联的,例如:10:30等于1030
dd=spark.createDataFrame([(2019,2,13,1030),(2018,2,14,1000),(2029,12,13,0300)],["Year","month","date","hhmm"])
dd.collect()
pyspark dataframe dd中的日期时间格式的预期输出
dd.collect()
2019-02-13 10:30:00
2018-2-14 10:00:00
2019-12-13 03:00:00
1条答案
按热度按时间axr492tv1#
有一个问题,你的数据,0300整数将不会加载为所需的格式,对我来说,它加载为192,所以首先你必须加载它作为字符串,你只需要分配数据类型使用模式时,进行加载。请参阅文档。e、 g.对于.csv:
之后,您需要修复数据格式并将其转换为时间戳: