avro配置单元上的动态模式更改

56lgkhnf  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(307)

我有一些数据来自avro格式v1,存储在hdfs的一个分区dt=yyyymmdd下。
现在数据在同一分区下用两个版本(v1和v2)进行维护。
为两个不同的版本维护一个配置单元表是否可行?

guicsvcw

guicsvcw1#

avro定义了一个模式演化协议
例如,如果v2只是添加了一个带有默认值的字段,然后用该模式更新表,它就可以读取整个旧数据,因为它只会返回缺少的默认值。
如果破坏了兼容性,则必须创建一个单独的表,然后将两者合并以获得一致的结果集

相关问题