text-generation-inference 队列大小无限增加

3ks5zfa0  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(39)

系统信息
操作系统版本:Linux
正在使用的模型(curl 127.0.0.1:8080/info | jq):TheBloke/Nous-Hermes-2-Mixtral-8x7B-DPO-AWQ
使用的硬件(GPUs,数量,云平台) (nvidia-smi):1xL40S
当前使用的版本:2.0.4

信息

  • Docker
  • CLI直接使用

任务

  • 一个官方支持的命令
  • 自己的修改

重现过程
使用 max_total_tokens = max_batch_prefill_tokens =16384; max_input_length =16383; quantize =awq 启动TGI。
在发出几百个请求后,pod返回空数据包,并且在发出请求几秒钟后。
监控显示 tgi_queue_size 稳步增加,但从未下降过。

预期行为
无卡顿。

z4bn682m

z4bn682m1#

嘿,@QLutz ,我怀疑这可能与 #2099 有关。你能尝试用 --cuda-graphs 0 运行 TGI,看看是否仍然出现挂起的情况?

a0zr77ik

a0zr77ik2#

我遇到了同样的问题,并通过尝试--cuda-graphs 0方法解决了它。这显然导致了严重的性能问题,但至少比崩溃要好。

相关问题