如何使用hadoop维护模式每季度更改一次的历史数据

f4t66c6m 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(376)

我有一个json输入文件，它存储了调查数据（来自客户的反馈）。
json文件中的列可以不同
例如，第一季度可以有70列，下一季度可以有100列，以此类推。
我想把所有这些季度数据存储在hdfs的同一个表中。
有没有一种方法可以通过删除和重新创建具有更改模式的表来维护历史记录？
如果列的长度减少了，它会怎样呢？比如说在第三季度，我们只得到30列。

hadoop apache-spark pandas talend

来源：https://stackoverflow.com/questions/62165080/how-to-maintain-history-data-whose-schema-changes-quarterly-using-hadoop

1条答案

按热度按时间

第一点是，在hdfs中，不存储表，只存储文件。您可以在hiveimpala等文件上创建表。
有些格式支持在读取时进行模式合并，例如parquet一般来说，您可以用一组超级列重新创建表。在 Impala 中，你有类似的模式演化能力。

赞(0）回复(0）举报 2021-05-27

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前