llama_index [Feature Request]: Async / parallel SemanticSplitterNodeParser

dauxcl2d  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(21)

功能描述

我希望有一个异步版本的SemanticSplitterNodeParser,因为目前每个节点的嵌入都是同步生成的,当一个文档有200-300个嵌入时,它的运行速度非常慢。

原因

我尝试使用IngestionPipeline,但不幸的是,这并不能提高速度。

功能价值

  • 无响应*
s6fujrry

s6fujrry1#

  • 🤖*

看起来你已经掌控了局面,如果你需要帮助或者有特定的问题,请告诉我我能为你做些什么!

关于Dosu

这个回复的目的是提供有用的信息并节省你的时间。它不是精确的解决方案,而是一个你自己研究的起点。
帮助我变得更有用!如果这有帮助,请留下一个👍;如果不相关,请留下一个👎。
如果你想继续对话,请以@dosu-bot开头回复。

slhcrj9b

slhcrj9b2#

你提到在SemanticSplitterNodeParser上并行化IngestionPipeline时没有观察到加速效果。你能分享一下代码片段吗?因为我无法运行它,我得到了以下错误:
无法pickle本地对象'split_by_sentence_tokenizer..split'。我查看了源代码,发现split方法是在split_by_sentence_tokenizer内部局部定义的,因此无法访问多进程,这很奇怪。有人能建议一个解决方法/应对措施吗?@logan-markewich

gkn4icbw

gkn4icbw3#

你好,有人找到解决pickle问题的方法了吗?
我不确定如何解决pickle问题。
任何帮助都将非常感谢@dosu-bot 。

相关问题