描述bug
运行unstructured-ingest
命令行工具时,它挂起了。我认为它将根页面视为Page Block并尝试解析它,在这一点上挂起。
重现
我们正在调查这个问题,并将用详细信息更新。
目前我们能提供的最好建议是,我们正在运行递归模式,并提供了一个数据库的子页面ID,其中数据库的父级是工作区。
预期行为
摄取应该抛出错误,或者运行完成。
截图
没有截图或日志可用。
环境信息
我们使用的Docker容器:
docker image ls | grep unstructured
downloads.unstructured.io/unstructured-io/unstructured latest 104a18d9e603 3 days ago 8.17GB
我在容器中找不到脚本,但我将其复制并执行了。有一些依赖项错误,但除此之外,它看起来像是在这里收集了您需要的信息
python3 collect.py
/home/notebook-user/collect.py:5: DeprecationWarning: pkg_resources is deprecated as an API. See https://setuptools.pypa.io/en/latest/pkg_resources.html
import pkg_resources
OS version: Linux-6.4.16-linuxkit-aarch64-with-glibc2.34
Python version: 3.10.13
unstructured version: 0.12.5
unstructured-inference version: 0.7.23
pytesseract version: 0.3.10
Torch version: 2.2.0
Detectron2 is not installed
[notice] A new release of pip is available: 23.2.1 -> 24.0
[notice] To update, run: pip install --upgrade pip
[notice] A new release of pip is available: 23.2.1 -> 24.0
[notice] To update, run: pip install --upgrade pip
PaddleOCR is not installed
Traceback (most recent call last):
File "/home/notebook-user/collect.py", line 242, in <module>
main()
File "/home/notebook-user/collect.py", line 224, in main
libmagic_version = get_libmagic_version()
File "/home/notebook-user/collect.py", line 146, in get_libmagic_version
result = subprocess.run(
File "/usr/local/lib/python3.10/subprocess.py", line 503, in run
with Popen(*popenargs, **kwargs) as process:
File "/usr/local/lib/python3.10/subprocess.py", line 971, in __init__
self._execute_child(args, executable, preexec_fn, close_fds,
File "/usr/local/lib/python3.10/subprocess.py", line 1863, in _execute_child
raise child_exception_type(errno_num, err_msg, err_filename)
FileNotFoundError: [Errno 2] No such file or directory: 'file'
其他上下文
在此问题的其他上下文中添加任何其他信息。
2条答案
按热度按时间gv8xihay1#
我们对关联的Notion工作区进行了一些探索,似乎用户只与我们的集成共享了一个页面。我们找到了一个解决方法,只需在这种情况下输入
--recursive
。为了将解决方法泛化,我们自己爬取工作区并构建我们想要捕获的页面/数据库ID列表,将其作为CLI参数提供。因此,这里的问题似乎是
--recursive
功能。也许Block类型层次结构可以帮助调试。
7tofc5zh2#
感谢您提出这个问题@gndctl-mehul -我们会在有带宽时尽快查看。