text-generation-inference Generation kwargs assignment when processing a request

q3qa4bjr  于 22天前  发布在  其他
关注(0)|答案(2)|浏览(21)

你好,感谢你的工作!Text-generation-inference(TGI)根据官方文档支持部署非核心模型:
https://huggingface.co/docs/text-generation-inference/en/basic_tutorials/non_core_models
TGI支持各种LLM架构(请参阅完整列表here)。如果你希望部署一个不是受支持模型之一的模型,TGI将回退到该模型的transformers实现。这意味着你将无法使用TGI引入的一些功能,如Tensor并行分片或闪存注意力。然而,你仍然可以获得TGI的许多好处,如连续批处理或流式输出。
看起来我们将为我们的非核心模型使用transformers实现。因此,我想在generate()函数中设置一些生成参数以与我模型的原始实现保持一致,但我找不到任何关于它的入口。你能告诉我如何实现吗?谢谢!

rnmwe5a2

rnmwe5a21#

你好,@ChenlongDeng 👋

这是一个非常好的问题。所以我非常确定,不幸的是这是不可能的。特别是如果这些是与请求一起发送的kwargs。或者这些是在模型启动时添加的吗?🤔

编辑:通过可能的意思是,它目前不支持。

6yoyoihd

6yoyoihd2#

你好,@ChenlongDeng 👋

这是一个非常好的问题。所以我非常确定,不幸的是这是不可能的。特别是如果这些是与请求一起发送的kwargs。或者这些是在模型启动时添加的吗?🤔

编辑:我的意思是,它目前不支持。

感谢你的回复!我的问题是,如果我们使用配置文件为一个模型提供服务,我们不能通过发送新请求来在配置中分配这些参数。我知道这很有挑战性,可能会与设计冲突,而且我相信TGI如果能支持的话,将更顺畅地与transformers一起工作。

相关问题