为什么加载的知识库比较多时,输出的内容就经常截断?比如问一个问题,如果是知识库里就1~2本书,大模型就会比较完整地输出内容,而如果知识库里的内容比较多,大模型输出总是输出一半就不输出了。显卡4090*2,max-model-len 18048 足够支持长文本。只要知识库内容一多,就会犯这种错。麻烦看下,是否有什么解决方案?
zed5wv101#
总token超过限制,例如您设定模型输入和输出的总token数为8000,但实际输入了7000,要求输出2000。当输出达到1000时,就会超过总token限制。
dl5txlt92#
感谢您的回复,但我的总token设置为18000,索引字数在4000多,这已经足够它发挥作用了。
jxct1oxe3#
我这边也发现了这个问题。请求实际上已经完成了,但不知道是不是网络原因,他的请求是一批一批过来的,中间隔了几秒,然后间隔之后可能就不输出了。前后端都没有看到任何报错。刷新页面后面的内容又显示全了。
3条答案
按热度按时间zed5wv101#
总token超过限制,例如您设定模型输入和输出的总token数为8000,但实际输入了7000,要求输出2000。当输出达到1000时,就会超过总token限制。
dl5txlt92#
总token超过限制,例如您设定模型输入和输出的总token数为8000,但实际输入了7000,要求输出2000。当输出达到1000时,就会超过总token限制。
感谢您的回复,但我的总token设置为18000,索引字数在4000多,这已经足够它发挥作用了。
jxct1oxe3#
我这边也发现了这个问题。请求实际上已经完成了,但不知道是不是网络原因,他的请求是一批一批过来的,中间隔了几秒,然后间隔之后可能就不输出了。前后端都没有看到任何报错。刷新页面后面的内容又显示全了。