只是我们面临的一个设计问题。
我有一个Parquet格式的配置单元外部表,包含以下列:
describe payments_user
col_name,data_type,comment
('amount_hold', 'int', '')
('id', 'int', '')
('transaction_id', 'string', '')
('recipient_id', 'string', '')
('year', 'string', '')
('month', 'string', '')
('day', 'string', '')
('', None, None)
('# Partition Information', None, None)
('# col_name ', 'data_type ', 'comment ')
('', None, None)
('year', 'string', '')
('month', 'string', '')
('day', 'string', '')
我们每天都会得到数据,然后动态地将这些数据吸收到年、月和日的分区中。因此,如果要更改源端的数据,即添加新列并发送批处理文件,那么我们如何接收数据。我知道avro有这个能力,但为了减少返工,如何才能在Parquet地板格式实现这一点?
如果avro是什么程序?
1条答案
按热度按时间jpfvwuh41#
您要寻找的是模式演化,它由hive支持,与avro相比有一些限制。
Parquet格式中的模式演化