CTranslate2 奇怪的int8*量化速度行为

hs1ihplo  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(37)

根据你的描述,当使用int8*量化时,推理速度严重依赖于num_hypotheses。为了验证这个行为是否正常,你可以尝试以下方法:

  1. 分析模型的计算复杂度。检查模型中是否有复杂的计算或者大量的循环,这些都可能导致推理速度受到影响。

  2. 调整量化参数。尝试使用不同的量化参数(如bitwidth)进行测试,看看是否会影响推理速度。

  3. 使用其他量化方法。除了int8*量化,还可以尝试其他量化方法,如float16、int8等,看看是否会影响推理速度。

  4. 优化硬件配置。检查你的硬件配置(如CPU、GPU等),确保它们能够支持所需的推理速度。如果可能的话,可以考虑升级硬件设备。

总之,这种现象可能是正常的,但也可能是由于某些原因导致的性能下降。你需要进一步分析和调整相关参数,以找到最佳的解决方案。

cunj1qz1

cunj1qz11#

所以我也得到了一些意想不到的结果。在这里,我使用num_hypotheses的1进行测试,并增加批处理大小,使用不同的GPU和几个不同的Llama 2模型,我可以重现这个问题。我没有合理的解释,它在batch_size的16或17之间附加。这种情况只发生在int8量化模型中。我附上了我的所有结果:

Benchmark - LLM.xlsx

相关问题