我正在从databricks向spark加载Parquet文件:
val dataset = context.session.read().parquet(parquetPath)
然后我执行如下转换:
val df = dataset.withColumn(
columnName, concat_ws("",
col(data.columnName), lit(textToAppend)))
当我试图将它保存为json到kafka(而不是回到parquet!):
df = df.select(
lit("databricks").alias("source"),
struct("*").alias("data"))
val server = "kafka.dev.server" // some url
df = dataset.selectExpr("to_json(struct(*)) AS value")
df.write()
.format("kafka")
.option("kafka.bootstrap.servers", server)
.option("topic", topic)
.save()
我得到以下例外:
org.apache.spark.sql.execution.QueryExecutionException: Parquet column cannot be converted in file dbfs:/mnt/warehouse/part-00001-tid-4198727867000085490-1e0230e7-7ebc-4e79-9985-0a131bdabee2-4-c000.snappy.parquet. Column: [item_group_id], Expected: StringType, Found: INT32
at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1$$anonfun$prepareNextFile$1.apply(FileScanRDD.scala:310)
at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1$$anonfun$prepareNextFile$1.apply(FileScanRDD.scala:287)
at scala.concurrent.impl.Future$PromiseCompletingRunnable.liftedTree1$1(Future.scala:24)
at scala.concurrent.impl.Future$PromiseCompletingRunnable.run(Future.scala:24)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
at java.lang.Thread.run(Thread.java:748)
Caused by: org.apache.spark.sql.execution.datasources.SchemaColumnConvertNotSupportedException
at com.databricks.sql.io.parquet.NativeColumnReader.readBatch(NativeColumnReader.java:448)
at com.databricks.sql.io.parquet.DatabricksVectorizedParquetRecordReader.nextBatch(DatabricksVectorizedParquetRecordReader.java:330)
at org.apache.spark.sql.execution.datasources.parquet.VectorizedParquetRecordReader.nextKeyValue(VectorizedParquetRecordReader.java:167)
at org.apache.spark.sql.execution.datasources.RecordReaderIterator.hasNext(RecordReaderIterator.scala:40)
at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1$$anonfun$prepareNextFile$1.apply(FileScanRDD.scala:299)
at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1$$anonfun$prepareNextFile$1.apply(FileScanRDD.scala:287)
at scala.concurrent.impl.Future$PromiseCompletingRunnable.liftedTree1$1(Future.scala:24)
at scala.concurrent.impl.Future$PromiseCompletingRunnable.run(Future.scala:24)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
at java.lang.Thread.run(Thread.java:748)
只有在尝试读取多个分区时才会发生这种情况。例如在 /mnt/warehouse/
目录我有很多Parquet文件,每个文件代表一个 datestamp
. 如果我只读其中一个,我不会得到异常,但如果我读整个目录,这个异常就会发生。
我在进行转换时得到这个结果,就像上面我更改列的数据类型一样。我怎样才能解决这个问题?我不是要写回parquet,而是要将来自同一源模式的所有文件转换为新模式,然后将它们写入kafka。
2条答案
按热度按时间k5ifujac1#
你可以在这个链接上找到说明
它向您展示了将数据写入Kafka主题的不同方法。
rbl8hiat2#
Parquet文件好像有问题。这个
item_group_id
文件中的列并非都是相同的数据类型,有些文件将列存储为string,有些文件将列存储为integer。从exception schemacolumnconvertnotsupportedexception的源代码中,我们可以看到以下描述:Parquet读取器发现列类型不匹配时引发异常。
在github上的spark测试中可以找到一种简单的复制问题的方法:
当然,这只会在一次读取多个文件时发生,或者在上面的测试中附加了更多的数据。如果读取单个文件,则列的数据类型之间不会出现不匹配问题。
解决此问题的最简单方法是在写入文件时确保所有文件的列类型都是正确的。
另一种方法是分别读取所有Parquet文件,更改模式以匹配,然后将它们与
union
. 一种简单的方法是调整模式: