特权问题
- 我是LangChain的维护者,或者直接被LangChain的维护者要求在这里创建一个问题。
问题内容
Gemini现在允许开发者使用系统指令、内容、工具和模型信息预先设置的上下文缓存,然后将此上下文作为标准查询的一部分引用。它必须显式地进行缓存(即-它不是请求或回复的一部分自动进行),并且可以设置缓存过期时间(并稍后更改)。
目前在Vertex AI中似乎不支持。
打开的问题:
- 添加到缓存的最佳范式或与LangChain历史系统集成的最佳范式
- 最佳引用范式
参考:
- AI Studio / genai: https://ai.google.dev/gemini-api/docs/caching?lang=python
- LangChain.js: google-common google-genai [feature]: Context Caching langchainjs#5841
1条答案
按热度按时间ybzsozfc1#
我非常喜欢这个功能。我目前已经自己搭建了一个
BaseChatModel
来实现这个功能,这大大降低了我的成本。Deepseek 刚刚揭示了类似的功能,如果这成为行业趋势,我不会感到惊讶。从 API 设计的Angular 来看,在
System/HumanMessage
上添加一个缓存参数(或关键字参数)是有意义的,以便向 ChatModel 发送信号,指示它应该缓存这条消息。