无法区分数据类型,而我正在为csv文件进行分析,将每个字段仅作为字符串
我试过下面的代码
rdd = sc.textFile(file)
header = rdd.first()
rdd = rdd.filter(lambda x: x != header)
rdd1 = rdd.mapPartitions(lambda x: csv.reader(x))
spark_df = rdd1.toDF(header.split(','))
完成csv文件的分析后,我得到的所有文件都是字符串,不能识别为数字,日期
1条答案
按热度按时间hts6caw31#
函数
textFile()
不支持架构推断。如果您是从结构化源(如csv)读取,请使用sc.read.csv
相反,它支持模式推理。您的代码是: