关于为我的hadoop基础结构定义技术堆栈的建议

dwthyt8l  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(183)

我计划在hadoop中构建一个新系统,从外部环境获取数据,然后进行一些转换并构建最终产品。
进入hadoop系统的外部数据(如果我们可以假设它来自oracle/mysql/postgre-sql数据库,可以有n个数据库模式)应该总是实时的(新数据应该被插入,更新的数据应该被更新),最多可能延迟一个小时(我们可以每小时轮询/推送)。
我们还可以假设存在于我的数据库模式中的数据具有n个表,我可能只需要源中存在的n个表中的m个表。以及每个表的数据大小(gb/tb)。所以我不能用满满一张table来代替。我应该总是去增量(更新/插入)推/拉入hadoop系统。
hive可以通过将数据划分为按日期划分的分区来支持,并且可以更快地查询,但是不支持更新,所以我必须始终使用full table replace,这是不可伸缩的。
我的最终目标是“将实时数据导入hadoop系统,读取查询性能,更新性能”。
你对我的用例的技术建议非常有用。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题