你好,如果你计划支持LLama3.1,请注意它需要一个新的ROPE缩放类别。谢谢!
$x_{1e0f1}x$
sdnqo3pr1#
我注意到Llama-3.1在config.json中设置了一个rope_scaling参数,并且它还更改了type字段的名称为rope_type。此外,之前的Llama-3中的rope_scaling参数为null。这会导致在转换过程中出现错误,当读取rope_scaling[" type "]时。然而,这个问题可以通过编写以下代码轻松解决:但是这还不完全足够,因为Llama-3的RoPE缩放尚未实现。因此,在转换过程中会出现以下错误:我不知道如何实现它,但是对于对此感兴趣的人,您可以参考transformers中的实现:https://github.com/huggingface/transformers/blob/1c122a46dc3c4448901f8d2f3018d9d58b846ba5/src/transformers/modeling_rope_utils.py#L298
type
1条答案
按热度按时间sdnqo3pr1#
我注意到Llama-3.1在config.json中设置了一个rope_scaling参数,并且它还更改了type字段的名称为rope_type。此外,之前的Llama-3中的rope_scaling参数为null。
这会导致在转换过程中出现错误,当读取rope_scaling["
type
"]时。然而,这个问题可以通过编写以下代码轻松解决:但是这还不完全足够,因为Llama-3的RoPE缩放尚未实现。因此,在转换过程中会出现以下错误:
我不知道如何实现它,但是对于对此感兴趣的人,您可以参考transformers中的实现:
https://github.com/huggingface/transformers/blob/1c122a46dc3c4448901f8d2f3018d9d58b846ba5/src/transformers/modeling_rope_utils.py#L298