text-generation-inference Generation kwargs assignment when processing a request

q3qa4bjr 于 5个月前发布在其他

关注(0)|答案(2)|浏览(89)

你好，感谢你的工作！Text-generation-inference(TGI)根据官方文档支持部署非核心模型：
https://huggingface.co/docs/text-generation-inference/en/basic_tutorials/non_core_models
TGI支持各种LLM架构(请参阅完整列表here)。如果你希望部署一个不是受支持模型之一的模型，TGI将回退到该模型的transformers实现。这意味着你将无法使用TGI引入的一些功能，如Tensor并行分片或闪存注意力。然而，你仍然可以获得TGI的许多好处，如连续批处理或流式输出。
看起来我们将为我们的非核心模型使用transformers实现。因此，我想在generate()函数中设置一些生成参数以与我模型的原始实现保持一致，但我找不到任何关于它的入口。你能告诉我如何实现吗？谢谢！

text-generation-inference

来源：https://github.com/huggingface/text-generation-inference/issues/2447

2条答案

按热度按时间

你好，@ChenlongDeng 👋

这是一个非常好的问题。所以我非常确定，不幸的是这是不可能的。特别是如果这些是与请求一起发送的kwargs。或者这些是在模型启动时添加的吗？🤔

编辑：通过可能的意思是，它目前不支持。

赞(0）回复(0）举报 5个月前

你好，@ChenlongDeng 👋

这是一个非常好的问题。所以我非常确定，不幸的是这是不可能的。特别是如果这些是与请求一起发送的kwargs。或者这些是在模型启动时添加的吗？🤔

编辑：我的意思是，它目前不支持。

感谢你的回复！我的问题是，如果我们使用配置文件为一个模型提供服务，我们不能通过发送新请求来在配置中分配这些参数。我知道这很有挑战性，可能会与设计冲突，而且我相信TGI如果能支持的话，将更顺畅地与transformers一起工作。

赞(0）回复(0）举报 5个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 5个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 5个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 5个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 5个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 5个月前