我们有一个数据仓库应用程序,我们计划将其转换为hadoop。目前,我们每天接收20个feed,并将这些数据加载到mysql数据库中。随着数据越来越大,我们计划使用hadoop来加快查询处理。作为第一步,我们计划每天将数据加载到hive中,而不是mysql。question:- 1.can 我把hadoop转换成类似于dwh的应用程序,每天处理文件?2.在主节点加载数据时,会自动同步吗?
envsm3lx1#
这实际上取决于数据的大小。这个问题有点复杂,但一般来说,您必须设计自己的管道。如果您正在分析原始日志,那么从hdfs开始将是一个不错的选择。您可以使用java、python或scala来每天调度配置单元作业,如果仍然需要一些mysql数据,则可以使用sqoop。在配置单元中,您必须创建分区表,以便在执行查询时同步并可用。也可以安排分区创建。我建议使用 Impala 而不是Hive,因为它更易于调整、容错和使用。
1条答案
按热度按时间envsm3lx1#
这实际上取决于数据的大小。这个问题有点复杂,但一般来说,您必须设计自己的管道。
如果您正在分析原始日志,那么从hdfs开始将是一个不错的选择。您可以使用java、python或scala来每天调度配置单元作业,如果仍然需要一些mysql数据,则可以使用sqoop。
在配置单元中,您必须创建分区表,以便在执行查询时同步并可用。也可以安排分区创建。
我建议使用 Impala 而不是Hive,因为它更易于调整、容错和使用。