mlc-llm [问题]发出请求后,返回第一个令牌所需的时间太长,

sg3maiej  于 2个月前  发布在  其他
关注(0)|答案(4)|浏览(31)

一般性问题

大家好,
我在设备上使用MLC-LLM对Llava模型进行了微调。
MLCChat生成的文本符合预期,但让我困惑的是
第一次生成令牌(Galaxy S24超过20秒)花费了太多时间,
导致应用程序卡住。
您是否知道首次生成令牌时间过长的情况以及如何缓解它?
祝好,

bvjxkvbb

bvjxkvbb1#

你在哪个平台上运行MLCChat?Android、IOS还是Python?

68bkxrlz

68bkxrlz2#

你在哪个平台上运行MLCChat?Android、IOS还是Python?
Android (Galaxy S24)

nzk0hqpo

nzk0hqpo3#

我认为可能是APP的速度较快。然而,当APP打开时,模型没有加载。因此,在聊天之前请尝试等待30秒或1分钟。如果这次我立即得到回复,我认为这就是问题所在。如果您仍然需要等待很长时间,那么可能不是导致加载模型时间过长的原因。

rlcwz9us

rlcwz9us4#

@panghongtao 我注意到,当调用以下功能生成令牌时,有时UI会滞后(在Galaxy S24上也是如此)。

engine.chat.completions.create()

尽管它在后台线程中以executorService.submit()执行,但UI有时仍会冻结数秒。您有任何改进建议吗?

相关问题