mlc-llm [问题]发出请求后，返回第一个令牌所需的时间太长,

sg3maiej 于 2个月前发布在其他

关注(0)|答案(4)|浏览(32)

大家好，
我在设备上使用MLC-LLM对Llava模型进行了微调。
MLCChat生成的文本符合预期，但让我困惑的是
第一次生成令牌(Galaxy S24超过20秒)花费了太多时间，
导致应用程序卡住。
您是否知道首次生成令牌时间过长的情况以及如何缓解它？
祝好，

4条答案

你在哪个平台上运行MLCChat?Android、IOS还是Python?

你在哪个平台上运行MLCChat?Android、IOS还是Python?
Android (Galaxy S24)

我认为可能是APP的速度较快。然而，当APP打开时，模型没有加载。因此，在聊天之前请尝试等待30秒或1分钟。如果这次我立即得到回复，我认为这就是问题所在。如果您仍然需要等待很长时间，那么可能不是导致加载模型时间过长的原因。

@panghongtao 我注意到，当调用以下功能生成令牌时，有时UI会滞后(在Galaxy S24上也是如此)。

engine.chat.completions.create()

尽管它在后台线程中以executorService.submit()执行，但UI有时仍会冻结数秒。您有任何改进建议吗？