我有一个json输入文件,它存储了调查数据(来自客户的反馈)。json文件中的列可以不同例如,第一季度可以有70列,下一季度可以有100列,以此类推。我想把所有这些季度数据存储在hdfs的同一个表中。有没有一种方法可以通过删除和重新创建具有更改模式的表来维护历史记录?如果列的长度减少了,它会怎样呢?比如说在第三季度,我们只得到30列。
qpgpyjmq1#
第一点是,在hdfs中,不存储表,只存储文件。您可以在hiveimpala等文件上创建表。有些格式支持在读取时进行模式合并,例如parquet一般来说,您可以用一组超级列重新创建表。在 Impala 中,你有类似的模式演化能力。
1条答案
按热度按时间qpgpyjmq1#
第一点是,在hdfs中,不存储表,只存储文件。您可以在hiveimpala等文件上创建表。
有些格式支持在读取时进行模式合并,例如parquet一般来说,您可以用一组超级列重新创建表。在 Impala 中,你有类似的模式演化能力。