我有一些数据来自avro格式v1,存储在hdfs的一个分区dt=yyyymmdd下。现在数据在同一分区下用两个版本(v1和v2)进行维护。为两个不同的版本维护一个配置单元表是否可行?
guicsvcw1#
avro定义了一个模式演化协议例如,如果v2只是添加了一个带有默认值的字段,然后用该模式更新表,它就可以读取整个旧数据,因为它只会返回缺少的默认值。如果破坏了兼容性,则必须创建一个单独的表,然后将两者合并以获得一致的结果集
1条答案
按热度按时间guicsvcw1#
avro定义了一个模式演化协议
例如,如果v2只是添加了一个带有默认值的字段,然后用该模式更新表,它就可以读取整个旧数据,因为它只会返回缺少的默认值。
如果破坏了兼容性,则必须创建一个单独的表,然后将两者合并以获得一致的结果集