Add Tokenize and Detokenize Endpoints to Ollama Server

utugiqy6 于 2个月前发布在其他

关注(0)|答案(1)|浏览(26)

你打算做什么？

我建议在Ollama服务器上添加tokenize和detokenize端点。这个功能对于Ollama客户端接口(如lollms)来说至关重要，因为它可以有效地准备提示并准确地估计LLM的token数量。目前，客户端使用tiktoken进行分词，这并不是最优的，因为token的分布取决于模型。虽然这可以在与chatgpt兼容的模型中工作，但它可能无法正确估计token的数量，导致次优的token计算，并在某些情况下，当请求的token数量超过LLM容量时出现错误。

我们应该如何解决这个问题？

向Ollama服务器引入两个新的端点：一个用于分词，另一个用于去分词：

分词端点：
- 输入：原始文本、模型名称
- 输出：token列表
去分词端点：
- 输入：token列表、模型名称
- 输出：原始文本
  这些端点应根据当前使用的模型返回正确的token或文本。
  分词端点应提供针对特定LLM的准确token计数，以确保最佳的token计算并帮助避免因超过LLM容量而引起的潜在错误。