你打算做什么?
我建议在Ollama服务器上添加tokenize和detokenize端点。这个功能对于Ollama客户端接口(如lollms)来说至关重要,因为它可以有效地准备提示并准确地估计LLM的token数量。目前,客户端使用tiktoken进行分词,这并不是最优的,因为token的分布取决于模型。虽然这可以在与chatgpt兼容的模型中工作,但它可能无法正确估计token的数量,导致次优的token计算,并在某些情况下,当请求的token数量超过LLM容量时出现错误。
我们应该如何解决这个问题?
向Ollama服务器引入两个新的端点:一个用于分词,另一个用于去分词:
分词端点:
- 输入:原始文本、模型名称
- 输出:token列表
去分词端点:
- 输入:token列表、模型名称
- 输出:原始文本
这些端点应根据当前使用的模型返回正确的token或文本。
分词端点应提供针对特定LLM的准确token计数,以确保最佳的token计算并帮助避免因超过LLM容量而引起的潜在错误。
如果不解决这个问题会有什么影响?
如果没有这些端点,用户可能不得不继续依赖低效或次优的解决方案来对文本数据进行分词和去分词。
还有其他要说的吗?
包括文档和示例,演示如何有效地使用这些新功能。提供全面的指导将有助于用户快速采用这些功能并提高整体用户体验。
1条答案
按热度按时间aelbi1ox1#
Related issues to keep an eye on: #1716