hadoop—将数据加载到配置单元以支持前端应用程序

bq3bfh9z  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(276)

我们有一个数据仓库应用程序,我们计划将其转换为hadoop。
目前,我们每天接收20个feed,并将这些数据加载到mysql数据库中。
随着数据越来越大,我们计划使用hadoop来加快查询处理。
作为第一步,我们计划每天将数据加载到hive中,而不是mysql。
question:- 1.can 我把hadoop转换成类似于dwh的应用程序,每天处理文件?2.在主节点加载数据时,会自动同步吗?

envsm3lx

envsm3lx1#

这实际上取决于数据的大小。这个问题有点复杂,但一般来说,您必须设计自己的管道。
如果您正在分析原始日志,那么从hdfs开始将是一个不错的选择。您可以使用java、python或scala来每天调度配置单元作业,如果仍然需要一些mysql数据,则可以使用sqoop。
在配置单元中,您必须创建分区表,以便在执行查询时同步并可用。也可以安排分区创建。
我建议使用 Impala 而不是Hive,因为它更易于调整、容错和使用。

相关问题