ragflow [Bug]: 在使用本地部署模型和xinference时,variational max_token的错误,

nle07wnf  于 3个月前  发布在  其他
关注(0)|答案(2)|浏览(62)

是否存在相同问题的现有问题?

  • 我已经检查了现有的问题。

分支名称

main

提交ID

6c32f80

其他环境信息

Ubuntu 22.04.1
RTX 4090 * 4 
CUDA:12.4
xinference=0.11.0; vllm=0.4.2 , 
model=qwen1.5 series or yi-chat series

实际行为

使用本地llm(qwen1.5, yi-chat) + xinference 作为后端模型服务,ragflow助手回答会出现”中断“的情况,多发于:1.参考文块较多 2.连续对话。

我检查了xinference的后台日志,发现每次调用xinference模型服务时,sampling_params中的 max_token 参数的值会变化,而非ragflow前端 模型设置里 ”最大token数“ 设置的值。也就是说”最大token数“设置的值并没有成功且持续不变的传入 xinference的API参数里。

预期行为

ragflow前端模型设置里 ”最大token数“ 设置的值 应该成功且不变的传入xinference 对话参数中的 max_token

重现步骤

ragflow v0.6.0 and lower
create a knowledge base arbitrarily and use it to chat arbitrarily with multi rounds, should reproduce the problem.

其他信息

  • 无响应*
exdqitrt

exdqitrt2#

XInference应用了OpenAI API来调用完成。因此,日志中显示的max_token与在UI中提交的max_token在意义上是否可能不同?

相关问题