错误描述
我将5.7 GB的数据集加载到加载器中,但它给出了这样的响应:
忽略错误的指向对象59 0 (偏移量0)
忽略错误的指向对象60 0 (偏移量0)
忽略错误的指向对象62 0 (偏移量0)
忽略错误的指向对象63 0 (偏移量0)
整个数据集是由pdf文件组成的...
版本
最新版本
重现步骤
from llama_index.core import SimpleDirectoryReader
reader = SimpleDirectoryReader(input_dir="./dataset")
documents = reader.load_data()
相关日志/回溯
- 无响应*
3条答案
按热度按时间xu3bshqb1#
嘿,@yasir23!🎉 我是 Dosu ,你的友好邻居机器人,在这里帮助解决bug,回答你的问题,并引导你成为贡献者。在我们等待人类维护者出现时,请知道我在这里提供帮助。让我深入了解你的问题,我会很快给你一个完整的答案!
tf7tbtn22#
我之前从未见过他。如果没有重现的方法,调试就变得非常困难了😅
我的猜测是要么是内存不足,要么是在读取某些pdf文件时出现了某种错误(损坏?受密码保护?)
你可以尝试逐个加载它们吗?
sdnqo3pr3#
要解决在加载一个5.7 GB的PDF文件数据集时出现的"忽略错误指向对象"警告问题,请考虑以下步骤:
pypdf
检查PDF文件的完整性并确保它们没有受密码保护。PDFReader
加载单个PDF文件或数据集的较小子集。这可以帮助识别导致警告的具体文件。SimpleDirectoryReader
配置中将raise_on_error
设置为True
以在出错时停止,使更容易识别有问题的文件。通过遵循这些步骤,您应该能够识别并解决数据集加载过程中出现的"忽略错误指向对象"警告问题。