前提条件
- 我正在运行最新的代码。如果可能的话,请提及版本。
- 我仔细遵循了 README.md 。
- 我使用与我的问题相关的关键词进行搜索,以确保我创建的是一个尚未打开(或关闭)的新问题。
- 我回顾了 Discussions ,并有一个新且有用的改进要分享。
功能描述
有人能请添加(或者指向我)如何正确设置一切,从下载的 FaceMeta-.pth 权重到 .gguf (然后继续到 Q8_0)的说明吗?
我正在本地运行一个 8B 示例,使用 llama-server 和 CUDA。
请继续保持优秀的工作!
动机
由于 brownie point kids 将许多半损坏的 llama3.1 gguf 文件上传到 hf,所以有必要对如何转换和量化原始/官方 Meta llama 3.1 权重进行一些说明,以便在本地的 llama.cpp 中使用。(不知何故,似乎每个人都从 hf 获取权重,但为什么不直接从实际来源免费获取这些可用的权重呢?)
尽管我使用了最新的 transformers(用于 .pth 到 .safetensors),并且随后使用了最新版本的 llama.cpp 进行 convert_hf_to_gguf.py,但我的尝试仍然让我感到困惑,不确定绳索缩放是否正确完成。
我找到的最接近的描述是在这里:https://voorloopnul.com/blog/quantize-and-run-the-original-llama3-8b-with-llama-cpp/
可能的实现
请在 README 或者这个问题的答案中为 llama3.1 "从 META.pth 到 GGUF"添加两行代码。
4条答案
按热度按时间gijlo24d1#
嘿,这是我目前捕获的内容。我将模型存储在
~/meta-llama-3.1-8b-instruct
。Source
接下来,您还需要从Hugging Face仓库中提取一些文件到模型目录。
最后,按照指示运行量化步骤。
不幸的是,我在这一点上遇到了以下错误。我还没有解决这个问题。
ukdjmx9f2#
你缺少一些Python包(protobuf?)。使用pip install将其拉入。
你描述的情况是我从https://voorloopnul.com/blog/quantize-and-run-the-original-llama3-8b-with-llama-cpp/中收集到的,我设法得到了一个可用的gguf文件。我也可以毫无问题地量化到Q8_0,并且我有一套似乎运行正常的模型。我只是不太确定绳索缩放是否能正确处理高达128k的上下文缓冲区。
鉴于在类似问题https://www.reddit.com/r/LocalLLaMA/comments/1eeyw0v/i_keep_getting_this_error_in_llama_31_8b_llamacpp/上的一些评论,例如,我在转换后的Tensor数量总是为291个,而从未有人抱怨llama.cpp期望有292个(正确转换的模型将有这个额外的一个)。这让我感到困惑。
如前所述,我希望在llama.cpp中正确使用官方Meta Llama 3.1(Instruct)权重的地方看到一份官方描述。也许还可以谈谈如何测试并确保大型上下文正常工作。
b4qexyjb3#
@xocite,我遇到了类似的问题。发现可能是由于缺少配置文件导致的。具体来说,是tokenizer_config.json文件?我没有完全尝试解决这个问题,但我确实创建了一个gist,其中我使用了save_pretrained方法下载了tokenizer和tokenizer_config JSON文件:https://gist.github.com/brandenvs/2dad0e864fc2a0a5ee176213ae43b902
qhhrdooz4#
我按照你的指示运行得很好。