你好。
我最近对NVIDIA V100 32GB GPU进行了一些基准测试。首先,我使用Huggingface的Transformers和CTranslate2对Llama2-7B-chat进行了基准测试。在使用ct2时,我看到了延迟的降低(分别为12秒和7.5秒)。
然而,当我尝试使用13B版本时,我并没有看到任何延迟方面的改进(分别为18秒和18秒),尽管vRAM的使用量略有减少。
为什么会这样?我做错了什么吗?
这是我正在使用的代码:
input = llama2_chat_prompt_template.format(transcript=transcript)
start = time.time()
tokens = tokenizer.convert_ids_to_tokens(tokenizer.encode(input))
results = generator.generate_batch([tokens], max_length=512, include_prompt_in_result=False)
output = tokenizer.decode(results[0].sequences_ids[0])
end = time.time()
t = end-start
print(f"GPU:\tV100\nTime(s):\t{t}\nResult: {output}")
2条答案
按热度按时间ujv3wf0j1#
你好,
你能分享一下你使用HuggingFace transformers运行模型的代码吗?
另外,在转换并加载模型到CTranslate2时,你设置了哪些参数?
polkgigr2#
Hi,
Can you share the code you are using to run the model with HuggingFace transformers?
Also what parameters do you set when converting and then loading the model to CTranslate2?
Sure.
Here's the code:
HF Transformers
FOR CTranslate2
Conversion script: