如何在apache配置单元中管理修改的数据

kkbh8khc  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(366)

我们正在开发cloudera cdh,并尝试对apachehadoop上存储的数据执行报告。我们每天向客户发送报告,因此需要每天将数据从操作存储导入hadoop。
hadoop只在append-only模式下工作。因此,我们无法执行配置单元更新/删除查询。我们可以对维度表执行insert覆盖,并在事实表中添加delta值。每天为delta行引入数千行似乎不是一个令人印象深刻的解决方案。
在hadoop中有没有其他标准的更好的方法来更新修改过的数据?
谢谢

mrfwxfqh

mrfwxfqh1#

hdfs可能只是附加的,但是hive支持从0.14开始的更新。
请看这里:https://cwiki.apache.org/confluence/display/hive/languagemanual+dml#languagemanualdml-更新
一种设计模式是每次都将所有以前和当前的数据插入到一个新表中。
根据您的用例,请查看apacheimpala/hbase/。。。甚至是训练。

相关问题