使用配置单元表读取多个Parquet文件

2ul0zpep  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(373)

嗨,我有2个Parquet文件,列数不同1)名称,类,标记2)名称,类,标记,等级
如何使用配置单元中的表读取两个文件中的所有数据。假设该表定义了4列名称、类标记和等级?
如何在配置单元中设置parquet.mergeschema属性?

fnatzsnv

fnatzsnv1#

parquet支持模式演化。如果您正在使用spark sql读取此文件,则必须将spark.sql.parquet.mergeschema设置为true(由于模式合并是一个昂贵的操作,因此spark 1.5.1已关闭)。另请参见《spark sql指南》,模式合并一节。

相关问题