llama_index [Bug]:将5.7 GB的数据加载到llama-index中

gijlo24d  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(36)

错误描述

我将5.7 GB的数据集加载到加载器中,但它给出了这样的响应:
忽略错误的指向对象59 0 (偏移量0)
忽略错误的指向对象60 0 (偏移量0)
忽略错误的指向对象62 0 (偏移量0)
忽略错误的指向对象63 0 (偏移量0)
整个数据集是由pdf文件组成的...

版本

最新版本

重现步骤

from llama_index.core import SimpleDirectoryReader
reader = SimpleDirectoryReader(input_dir="./dataset")
documents = reader.load_data()

相关日志/回溯

  • 无响应*
xu3bshqb

xu3bshqb1#

嘿,@yasir23!🎉 我是 Dosu ,你的友好邻居机器人,在这里帮助解决bug,回答你的问题,并引导你成为贡献者。在我们等待人类维护者出现时,请知道我在这里提供帮助。让我深入了解你的问题,我会很快给你一个完整的答案!

tf7tbtn2

tf7tbtn22#

我之前从未见过他。如果没有重现的方法,调试就变得非常困难了😅
我的猜测是要么是内存不足,要么是在读取某些pdf文件时出现了某种错误(损坏?受密码保护?)
你可以尝试逐个加载它们吗?

sdnqo3pr

sdnqo3pr3#

要解决在加载一个5.7 GB的PDF文件数据集时出现的"忽略错误指向对象"警告问题,请考虑以下步骤:

  1. 检查损坏或受密码保护的PDF:这些警告可能表明PDF文件本身存在问题,如损坏或受密码保护。使用工具如pypdf检查PDF文件的完整性并确保它们没有受密码保护。
  2. 内存管理:确保系统有足够的内存来处理数据集。如果内存是问题所在,尝试顺序加载数据集的较小块。
  3. 使用PDFReader进行调试:从llama-index中使用PDFReader加载单个PDF文件或数据集的较小子集。这可以帮助识别导致警告的具体文件。
  4. 调整处理和错误处理:如果使用并行处理,请确保系统能够处理负载。考虑在SimpleDirectoryReader配置中将raise_on_error设置为True以在出错时停止,使更容易识别有问题的文件。
  5. 增强日志记录:在脚本或llama-index配置中增加日志详细信息以捕获有关加载过程的更多信息。这有助于确定警告的根本原因。
  6. 查阅文档和社区:查看llama-index文档和社区论坛,了解与加载大型数据集或处理PDF文件相关的任何已知问题或提示。
    通过遵循这些步骤,您应该能够识别并解决数据集加载过程中出现的"忽略错误指向对象"警告问题。

相关问题