根据你的描述,当使用int8*量化时,推理速度严重依赖于num_hypotheses。为了验证这个行为是否正常,你可以尝试以下方法:
分析模型的计算复杂度。检查模型中是否有复杂的计算或者大量的循环,这些都可能导致推理速度受到影响。
调整量化参数。尝试使用不同的量化参数(如bitwidth)进行测试,看看是否会影响推理速度。
使用其他量化方法。除了int8*量化,还可以尝试其他量化方法,如float16、int8等,看看是否会影响推理速度。
优化硬件配置。检查你的硬件配置(如CPU、GPU等),确保它们能够支持所需的推理速度。如果可能的话,可以考虑升级硬件设备。
总之,这种现象可能是正常的,但也可能是由于某些原因导致的性能下降。你需要进一步分析和调整相关参数,以找到最佳的解决方案。
1条答案
按热度按时间cunj1qz11#
所以我也得到了一些意想不到的结果。在这里,我使用
num_hypotheses
的1进行测试,并增加批处理大小,使用不同的GPU和几个不同的Llama 2模型,我可以重现这个问题。我没有合理的解释,它在batch_size
的16或17之间附加。这种情况只发生在int8量化模型中。我附上了我的所有结果:Benchmark - LLM.xlsx