我正在使用spark.read.parquet()从分区中组织Parquet文件的文件夹中读取。当分区名以f或d结尾时,结果将是错误的。显然,spark会将它们解释为数字而不是字符串。我创建了一个最小的测试用例来重现这个问题。
df = spark.createDataFrame([
('9q', 1),
('3k', 2),
('6f', 3),
('7f', 4),
('7d', 5),
],
schema='foo string, id integer'
)
df.write.partitionBy('foo').parquet('./tmp_parquet', mode='overwrite')
read_back_df = spark.read.parquet('./tmp_parquet')
read_back_df.show()
回读数据将
+---+---+
| id|foo|
+---+---+
| 1| 9q|
| 4|7.0|
| 3|6.0|
| 2| 3k|
| 5|7.0|
+---+---+
注意,分区6f/7f/7d变为6.0/7.0/7.0。
Spark塞为2.4.3。
1条答案
按热度按时间zpqajqem1#
你看到的行为是意料之中的。
来自spark文档:
请注意,分区列的数据类型是自动推断的。
您可以通过设置
spark.sql.sources.partitionColumnTypeInference.enabled
错误的。以下代码在读取Parquet文件时保留字符串:
印刷品