我听说如果你运行广泛的查询,hadoop会出现性能问题,因为会涉及太多的节点?有人能证实或伪造这一说法吗?谢谢!比尔
w80xi6nr1#
如果添加的文件太多,namenode会出现性能问题,因为它必须在内存中存储所有文件位置。您可以通过定期创建更大的存档来优化这一点。例如,每日数据库转储将变成每月/每年压缩的存档,这些存档仍然是可处理的格式hdfs数据节点只是一个文件系统,可以线性扩展。添加更多的nodemanager节点总体上没有负面影响,而且据报道yarn最多运行1000个节点,如果您实际需要更多的节点,我建议使用独立集群。与任何分布式系统一样,您需要优化网络交换和系统监控,但这些都是操作性能问题,并非特定于hadoop
1条答案
按热度按时间w80xi6nr1#
如果添加的文件太多,namenode会出现性能问题,因为它必须在内存中存储所有文件位置。您可以通过定期创建更大的存档来优化这一点。例如,每日数据库转储将变成每月/每年压缩的存档,这些存档仍然是可处理的格式
hdfs数据节点只是一个文件系统,可以线性扩展。添加更多的nodemanager节点总体上没有负面影响,而且据报道yarn最多运行1000个节点,如果您实际需要更多的节点,我建议使用独立集群。
与任何分布式系统一样,您需要优化网络交换和系统监控,但这些都是操作性能问题,并非特定于hadoop