检查其他资源
- 我为这个问题添加了一个非常描述性的标题。
- 我在集成搜索中搜索了LangChain文档。
- 我使用GitHub搜索找到了一个类似的问题,但没有找到。
- 我确信这是LangChain中的一个bug,而不是我的代码。
- 通过更新到LangChain的最新稳定版本(或特定集成包)无法解决这个bug。
示例代码
youtube_url = 'https://youtu.be/RXQ5AtjUMAw'
loader = GenericLoader(
YoutubeAudioLoader(
[youtube_url],
'./videos'
),
OpenAIWhisperParser(
api_key=key,
language='en'
)
)
loader.load()
错误信息和堆栈跟踪(如果适用)
Transcribing part 1!
Transcribing part 2!
Transcribing part 1!
Transcribing part 1!
Transcribing part 3!
Transcribing part 3!
描述
- 我正在使用Langchain为YouTube视频生成字幕,但我注意到我的api_key的使用率很高。经过仔细检查,我发现OpenAIWhisperParser在多次转录相同的部分。
- 有时它会经过1,2,3等部分,然后返回到1并重复
- 我注意到即使指定了语言,第一个片段始终是原始语言,就好像参数没有传递给第一个请求一样
- 我尝试不使用语言参数,但问题仍然存在
系统信息
系统信息:
Python 3.11.9 在PyCharm虚拟环境中运行
langchain==0.2.1
langchain-community==0.2.1
langchain-core==0.2.1
langchain-openai==0.1.7
langchain-text-splitters==0.2.0
langgraph==0.0.55
langsmith==0.1.63
2条答案
按热度按时间6za6bjd01#
你好,
我已经在相同版本的Python和PyCharm中的相同版本库中复制了你的代码。实际上,我并没有遇到过像你遇到的那样的问题。
这是我的完整代码:
这是我的完整依赖列表,因为我们还需要安装pydub和yt_dlp:
此外,我想提到,我尝试多次运行代码并为language参数使用不同的值,所以每次我得到相同的输出:
ca1c2owp2#
我观察到的是这样的情况只发生在时长超过60分钟的视频中,所以这可能有助于诊断。