text-generation-inference 生成超长文本时,"/health"变得非常慢,

eanckbw9  于 5个月前  发布在  其他
关注(0)|答案(1)|浏览(90)

系统信息

tgi 2.0.2

信息

  • Docker
  • CLI直接使用

任务

  • 一个官方支持的命令
  • 我自己的修改

复现

/// GRPC health check #[instrument(skip(self))] pub async fn health(&mut self) -> Result<HealthResponse> { let futures: Vec<_> = self .clients .iter_mut() .map(|client| client.health()) .collect(); join_all(futures).await.pop().unwrap() }

/// 返回连接到给定url的客户端
pub async fn connect(uri: Uri) -> Result {
    let channel = Channel::builder(uri).connect().await?;

这一部分在调用gprc的时候,返回结果会很慢,尤其是在调用一个超长文本,比如125k的长上下文的时候,我使用的是llama3-8B。 /health 时间会超过10s以上。 这个已经严重影响了正常使用。

预期行为

如题。

2izufjch

2izufjch1#

你好@coderchem 👋
感谢打开这个问题!
我不太确定我是否完全理解了确切的问题。但是,我是否正确理解了当有一个长文本生成的推理进行时,/health端点会变慢?

相关问题