我想从cloudera5.4.4hadoop集群收集聚合使用指标。我心目中的一些指标如下:
群集每天/每周的平均cpu利用率
hadoop上运行时间最长的前n个作业/查询
使用群集最多的前n个用户(按利用率、提交的作业数)
群集磁盘使用率与磁盘容量
群集磁盘使用率随时间增长
有什么API/资源/工具等我可以用来开始这个吗?我想我不太确定从哪里开始。任何出发点都将不胜感激。另外,如果您有任何集群使用指标,请分享您的经验。
提前谢谢!
我想从cloudera5.4.4hadoop集群收集聚合使用指标。我心目中的一些指标如下:
群集每天/每周的平均cpu利用率
hadoop上运行时间最长的前n个作业/查询
使用群集最多的前n个用户(按利用率、提交的作业数)
群集磁盘使用率与磁盘容量
群集磁盘使用率随时间增长
有什么API/资源/工具等我可以用来开始这个吗?我想我不太确定从哪里开始。任何出发点都将不胜感激。另外,如果您有任何集群使用指标,请分享您的经验。
提前谢谢!
2条答案
按热度按时间fruv7luv1#
我希望这个链接(这里)可以为2和3提供一些细节。
mzaanser2#
ganglia是一个面向大型集群的开源、可扩展的分布式监控系统。它收集、聚合并提供数十个机器相关度量的时间序列视图,例如
CPU, memory, storage, network usage
. 你可以在加州大学伯克利分校的网格上看到神经节在起作用。ganglia也是监视hadoop和hbase集群的流行解决方案,因为hadoop(和hbase)内置了向ganglia发布度量的支持。使用ganglia,您可以很容易地看到特定hdsf datanode一段时间内写入的字节数、给定hbase区域服务器的块缓存命中率、对hbase集群的请求总数、在垃圾收集中花费的时间以及许多其他信息。参考-http://hakunamapdata.com/ganglia-configuration-for-a-small-hadoop-cluster-and-some-troubleshooting/