vllm [Bug]: DynamicNTKScalingRotaryEmbedding的实现可能存在错误,

e37o9pze  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(28)

当前环境

The output of `python collect_env.py`

我注意到动态ntk的实现为所有长度重新计算了基础参数,这与transformers的实现不一致?

🐛 描述bug

def _compute_cos_sin_cache(self) -> torch.Tensor:

NOTE(woosuk): self.max_position_embeddings是应用rope缩放之前的原始最大长度。

因此,在应用rope缩放后的最大长度为self.max_position_embeddings * self.scaling_factor。

yshpjwxd

yshpjwxd1#

是的,我注意到了类似的问题。当前的动态NTK缩放实际上是静态NTK缩放。对于需要处理大量并发请求的模型服务器来说,实现动态NTK可能会变得棘手且低效。

相关问题