我最初的测试是将ct2(使用int8)与bitsandbytes
库进行比较,分别在4位和8位。ctranslate2团队做得很好。期待在那里测试GGUF。
以下是我脚本中相关的部分,省略了提示、导入以及计算机上模型的私有路径:
部分测试脚本
如果有人想要完整的测试脚本,请告诉我...编辑,我运行了5次,并将图表更改为仅显示所有后端运行的模型...认为这是一个更好的图表。
我最初的测试是将ct2(使用int8)与bitsandbytes
库进行比较,分别在4位和8位。ctranslate2团队做得很好。期待在那里测试GGUF。
以下是我脚本中相关的部分,省略了提示、导入以及计算机上模型的私有路径:
部分测试脚本
如果有人想要完整的测试脚本,请告诉我...编辑,我运行了5次,并将图表更改为仅显示所有后端运行的模型...认为这是一个更好的图表。
1条答案
按热度按时间axzmvihb1#
更新后的图表在这里,包括llama.cpp,显然它更快,但使用略微更多的显存...除了13B型号,它的显存高出3GB。此外,数字发生了一些变化,因为我运行了每个模型15次而不是3次...