hive—bigdata/hadoop项目的典型流程?

yuvru6vn  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(262)

我最近开始学习大数据技术,比如sqoop、hive、pig,发现有多种方法(比如sqoop、hiveql等)可以用来解决给定的问题。我对技术/工具的选择有点困惑。
如果您在大多数情况下使用任何典型的microsoftbi项目,那么流程将是
ssis(处理原始数据)->ssas(创建olap数据库)->ssrs(生成报告)。
与此类似,bigdata/hadoop项目的典型流程是什么。假设我的数据源是电子邮件日志。

vjrehmav

vjrehmav1#

这实际上取决于你的要求和你的技能。在我看来,你可以用多种方式处理电子邮件日志。
选项
(近实时)使用flume从源端流式传输电子邮件日志--->将日志存储为flume sink中的hdfs--->使用pig或hive分析日志。
(实时)使用storm Spots流式处理电子邮件日志--->在storm bolts中处理日志--->最终存储在nosql数据库中,以便进一步报告和分析。
还有很多其他的方法。根据可供选择的适合您需求的技能集,您可以做出决定。

相关问题