大家好,我在设备上使用MLC-LLM对Llava模型进行了微调。MLCChat生成的文本符合预期,但让我困惑的是第一次生成令牌(Galaxy S24超过20秒)花费了太多时间,导致应用程序卡住。您是否知道首次生成令牌时间过长的情况以及如何缓解它?祝好,
bvjxkvbb1#
你在哪个平台上运行MLCChat?Android、IOS还是Python?
68bkxrlz2#
你在哪个平台上运行MLCChat?Android、IOS还是Python?Android (Galaxy S24)
nzk0hqpo3#
我认为可能是APP的速度较快。然而,当APP打开时,模型没有加载。因此,在聊天之前请尝试等待30秒或1分钟。如果这次我立即得到回复,我认为这就是问题所在。如果您仍然需要等待很长时间,那么可能不是导致加载模型时间过长的原因。
rlcwz9us4#
@panghongtao 我注意到,当调用以下功能生成令牌时,有时UI会滞后(在Galaxy S24上也是如此)。
engine.chat.completions.create()
尽管它在后台线程中以executorService.submit()执行,但UI有时仍会冻结数秒。您有任何改进建议吗?
executorService.submit()
4条答案
按热度按时间bvjxkvbb1#
你在哪个平台上运行MLCChat?Android、IOS还是Python?
68bkxrlz2#
你在哪个平台上运行MLCChat?Android、IOS还是Python?
Android (Galaxy S24)
nzk0hqpo3#
我认为可能是APP的速度较快。然而,当APP打开时,模型没有加载。因此,在聊天之前请尝试等待30秒或1分钟。如果这次我立即得到回复,我认为这就是问题所在。如果您仍然需要等待很长时间,那么可能不是导致加载模型时间过长的原因。
rlcwz9us4#
@panghongtao 我注意到,当调用以下功能生成令牌时,有时UI会滞后(在Galaxy S24上也是如此)。
尽管它在后台线程中以
executorService.submit()
执行,但UI有时仍会冻结数秒。您有任何改进建议吗?