python—不标识所有数据类型

c0vxltue  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(366)

无法区分数据类型,而我正在为csv文件进行分析,将每个字段仅作为字符串
我试过下面的代码

rdd = sc.textFile(file)
header = rdd.first()
rdd = rdd.filter(lambda x: x != header)
rdd1 = rdd.mapPartitions(lambda x: csv.reader(x))
spark_df = rdd1.toDF(header.split(','))

完成csv文件的分析后,我得到的所有文件都是字符串,不能识别为数字,日期

hts6caw3

hts6caw31#

函数 textFile() 不支持架构推断。如果您是从结构化源(如csv)读取,请使用 sc.read.csv 相反,它支持模式推理。您的代码是:

df = sc.read.option("header", "true").option("inferSchema", "true").csv(file)

相关问题