在windows中监视hadoop集群性能的任何工具。我们在windows单节点集群上安装了hortonworkshdp2.2.0并测试了jar。我们在26分钟内处理了500万条记录。现在我们已经建立了一个包含4台从机和1个名称节点的集群。虽然每台机器的内存是8千兆位,但我们只是在做概念验证。我们没有看到集群中处理时间的改进。有什么工具能指出问题所在吗。所有可用的都是为linux编写的。
谢谢,基肖尔。
在windows中监视hadoop集群性能的任何工具。我们在windows单节点集群上安装了hortonworkshdp2.2.0并测试了jar。我们在26分钟内处理了500万条记录。现在我们已经建立了一个包含4台从机和1个名称节点的集群。虽然每台机器的内存是8千兆位,但我们只是在做概念验证。我们没有看到集群中处理时间的改进。有什么工具能指出问题所在吗。所有可用的都是为linux编写的。
谢谢,基肖尔。
2条答案
按热度按时间siotufzp1#
您可能不需要windows本机工具来显示您正在寻找的各种性能指标。如果您正在寻找来自yarn、mapreduce或hdfs的性能指标,那么您可以从每个相关技术公开的web界面/http端点即时收集这些技术的指标。
例如,使用hdfs,您可以通过http从namenode和datanodes收集度量。此外,您可以通过jmx访问完整的度量套件,尽管该选项需要更多的配置。
我编写了一本指南,介绍如何使用本机工具收集hadoop性能指标,您可能会发现这些工具很有用。它详细介绍了为mapreduce、yarn、hdfs和zookeeper收集度量的方法。
u7up0aaq2#
在hadoop上,500万张唱片听起来并不多。您的数据大小(gb)?
我不知道任何适用于windows的hadoop监控工具,但您应该从基础知识开始—您的数据是可拆分的吗?看看资源管理器的视图-你的MapReduce应用程序有多少个容器?它们是否分布在所有机器上(如果容量调度器能够将所有负载都放在一台机器上,那么它往往不会将负载分配到多台机器上。每次任务尝试的cpu使用率,每次任务尝试的io?
您还应该存储、比较和分析windows性能计数器—cpu、i/o、网络,以查看是否存在任何瓶颈。