我们正在开发cloudera cdh,并尝试对apachehadoop上存储的数据执行报告。我们每天向客户发送报告,因此需要每天将数据从操作存储导入hadoop。hadoop只在append-only模式下工作。因此,我们无法执行配置单元更新/删除查询。我们可以对维度表执行insert覆盖,并在事实表中添加delta值。每天为delta行引入数千行似乎不是一个令人印象深刻的解决方案。在hadoop中有没有其他标准的更好的方法来更新修改过的数据?谢谢
mrfwxfqh1#
hdfs可能只是附加的,但是hive支持从0.14开始的更新。请看这里:https://cwiki.apache.org/confluence/display/hive/languagemanual+dml#languagemanualdml-更新一种设计模式是每次都将所有以前和当前的数据插入到一个新表中。根据您的用例,请查看apacheimpala/hbase/。。。甚至是训练。
1条答案
按热度按时间mrfwxfqh1#
hdfs可能只是附加的,但是hive支持从0.14开始的更新。
请看这里:https://cwiki.apache.org/confluence/display/hive/languagemanual+dml#languagemanualdml-更新
一种设计模式是每次都将所有以前和当前的数据插入到一个新表中。
根据您的用例,请查看apacheimpala/hbase/。。。甚至是训练。