使用“普通”hadoop集群hortonworks和组件hdfs、hive、oozie有哪些优点/缺点。。。与aws上的一些服务相比,比如s3/athena/lambda?
我的场景数据流:
源数据来自物联网传感器,以便进行分析,有时我需要通过deviceid和datetime与hive/athena进行查询(所有条件都已分区)
使用“普通”hadoop集群hortonworks和组件hdfs、hive、oozie有哪些优点/缺点。。。与aws上的一些服务相比,比如s3/athena/lambda?
我的场景数据流:
源数据来自物联网传感器,以便进行分析,有时我需要通过deviceid和datetime与hive/athena进行查询(所有条件都已分区)
1条答案
按热度按时间p1iqtdky1#
在任何云提供商中自己安装hadoop的缺点显然是成本和少量维护。
例如,hdfs磁盘已满,请添加更多卷。你需要自己升级和修补软件。每台机器每小时收费一次,关闭集群的namenode会导致集群在一段时间内无法使用;如果您没有任何一夜之间运行集群的业务用例,那么您就是在浪费金钱
因此,在云中存储数据的优势是。
虽然比hdfs慢,但是s3中的对象存储要便宜得多,而且可以扩展
通过lambda或其他调度器触发操作,实际上比oozie启动一个yarn作业更快。您的代码也没有绑定到hadoop,因此您的函数应该能够更小,尽管您的语言选项可能有限。如果将lambda或其他文件系统触发器与kubernetes之类的容器调度器相结合,则可以打开许多选项。
使用aws glue和athena之类的工具随时查询数据,可以将hive元存储和兼容查询引擎的维护分离开来,无论是hive、presto、impala、drill,任何具有aws访问权限的人都可以运行athena查询,而无需知道hiveserver的地址以及如何正确连接到它(例如,您应该保护它并使其高度可用)