在Hugging Face的AutoClass模型中,我们可以通过执行model.forward来获得logits和past_key_values。然后,model.generate使用这些past_key_values进行高效的生成。
model.forward
model.generate
如何在generator.forward_batch API中返回这些past_key_values?
generator.forward_batch
u5rb5r591#
在这个时候,forward_batch 并没有被设计用于迭代解码。它计算整个序列的logits(或对数概率)。为什么不能使用 generate_batch 进行生成?
forward_batch
generate_batch
r7xajy2e2#
我绝对可以使用generate_batch,它运行得很快!但是如果我能访问kv缓存或HF API,那么我可以像大纲那样进行快速的引导生成。参见:PR
2条答案
按热度按时间u5rb5r591#
在这个时候,
forward_batch
并没有被设计用于迭代解码。它计算整个序列的logits(或对数概率)。为什么不能使用
generate_batch
进行生成?r7xajy2e2#
我绝对可以使用
generate_batch
,它运行得很快!但是如果我能访问kv缓存或HF API,那么我可以像大纲那样进行快速的引导生成。参见:PR