我正在优化一个利用apachespark、hdfs和yarn作为集群管理器的数据管道。spark群集由数量有限的内部机器组成,这些机器在不同的组中共享。因此,建造管道的某些部件将需要不同的时间,这取决于这些机器的使用量。我正在尝试提出一个度量标准来判断我的优化在多大程度上提高了现有数据管道的性能(基于组件到组件)。现在,我能想到的两件事是:
1) 生成期间的内存使用量生成组件所用的时间量
2) 生成期间使用的CPU数生成组件所用的时间量
你对这些指标有什么看法?什么是更精确的测量?是否有更好的绩效衡量标准?我对任何建议都持开放态度,因为我对大数据的世界还很陌生。任何帮助都将不胜感激!
谢谢,
泰勒
暂无答案!
目前还没有任何答案,快来回答吧!