bug/unstructured-ingest-hanging

olhwl3o2  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(49)

描述bug

运行unstructured-ingest命令行工具时,它挂起了。我认为它将根页面视为Page Block并尝试解析它,在这一点上挂起。

重现

我们正在调查这个问题,并将用详细信息更新。
目前我们能提供的最好建议是,我们正在运行递归模式,并提供了一个数据库的子页面ID,其中数据库的父级是工作区。

预期行为

摄取应该抛出错误,或者运行完成。

截图

没有截图或日志可用。

环境信息

我们使用的Docker容器:

docker image ls | grep unstructured
downloads.unstructured.io/unstructured-io/unstructured   latest    104a18d9e603   3 days ago     8.17GB

我在容器中找不到脚本,但我将其复制并执行了。有一些依赖项错误,但除此之外,它看起来像是在这里收集了您需要的信息

python3 collect.py
/home/notebook-user/collect.py:5: DeprecationWarning: pkg_resources is deprecated as an API. See https://setuptools.pypa.io/en/latest/pkg_resources.html
  import pkg_resources
OS version:  Linux-6.4.16-linuxkit-aarch64-with-glibc2.34
Python version:  3.10.13
unstructured version:  0.12.5
unstructured-inference version:  0.7.23
pytesseract version:  0.3.10
Torch version:  2.2.0
Detectron2 is not installed

[notice] A new release of pip is available: 23.2.1 -> 24.0
[notice] To update, run: pip install --upgrade pip

[notice] A new release of pip is available: 23.2.1 -> 24.0
[notice] To update, run: pip install --upgrade pip
PaddleOCR is not installed
Traceback (most recent call last):
  File "/home/notebook-user/collect.py", line 242, in <module>
    main()
  File "/home/notebook-user/collect.py", line 224, in main
    libmagic_version = get_libmagic_version()
  File "/home/notebook-user/collect.py", line 146, in get_libmagic_version
    result = subprocess.run(
  File "/usr/local/lib/python3.10/subprocess.py", line 503, in run
    with Popen(*popenargs, **kwargs) as process:
  File "/usr/local/lib/python3.10/subprocess.py", line 971, in __init__
    self._execute_child(args, executable, preexec_fn, close_fds,
  File "/usr/local/lib/python3.10/subprocess.py", line 1863, in _execute_child
    raise child_exception_type(errno_num, err_msg, err_filename)
FileNotFoundError: [Errno 2] No such file or directory: 'file'

其他上下文

在此问题的其他上下文中添加任何其他信息。

gv8xihay

gv8xihay1#

我们对关联的Notion工作区进行了一些探索,似乎用户只与我们的集成共享了一个页面。我们找到了一个解决方法,只需在这种情况下输入--recursive。为了将解决方法泛化,我们自己爬取工作区并构建我们想要捕获的页面/数据库ID列表,将其作为CLI参数提供。
因此,这里的问题似乎是--recursive功能。也许Block类型层次结构可以帮助调试

child_page/PAGE TITLE/<obfuscated>
├── paragraph/<obfuscated>
├── child_database/<obfuscated>
├── paragraph/<obfuscated>
├── heading_1/<obfuscated>
├── heading_1/<obfuscated>
│   ├── image/<obfuscated>
│   ├── paragraph/<obfuscated>
│   ├── paragraph/<obfuscated>
│   ├── paragraph/<obfuscated>
│   ├── heading_3/<obfuscated>
│   │   ├── paragraph/<obfuscated>
│   │   ├── paragraph/<obfuscated>
│   │   ├── paragraph/<obfuscated>
│   │   ├── heading_3/<obfuscated>
│   │   │   ├── paragraph/<obfuscated>
│   │   │   ├── paragraph/<obfuscated>
│   │   ├── image/<obfuscated>
│   │   ├── heading_2/<obfuscated>
│   │   │   ├── image/<obfuscated>
│   │   │   ├── paragraph/<obfuscated>
│   │   ├── heading_2/<obfuscated>
│   │   │   ├── paragraph/<obfuscated>
│   │   │   ├── heading_3/<obfuscated>
│   │   │   │   ├── table/<obfuscated>
│   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   ├── paragraph/<obfuscated>
│   │   │   ├── table/<obfuscated>
│   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   ├── table_row/<obfuscated>
│   │   ├── heading_3/<obfuscated>
│   │   │   ├── paragraph/<obfuscated>
│   │   │   ├── table/<obfuscated>
│   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   ├── table_row/<obfuscated>
│   │   ├── table/<obfuscated>
│   │   │   ├── table_row/<obfuscated>
│   │   │   ├── table_row/<obfuscated>
│   │   │   ├── table_row/<obfuscated>
│   │   │   ├── table_row/<obfuscated>
│   ├── paragraph/<obfuscated>
│   ├── paragraph/<obfuscated>
├── heading_1/<obfuscated>
│   ├── paragraph/<obfuscated>
│   ├── paragraph/<obfuscated>
│   ├── paragraph/<obfuscated>
│   ├── heading_3/<obfuscated>
│   │   ├── paragraph/<obfuscated>
│   │   ├── paragraph/<obfuscated>
│   │   ├── paragraph/<obfuscated>
│   │   ├── heading_3/<obfuscated>
│   │   │   ├── paragraph/<obfuscated>
├── heading_1/<obfuscated>
│   ├── heading_2/<obfuscated>
│   │   ├── paragraph/<obfuscated>
│   │   ├── paragraph/<obfuscated>
│   │   ├── paragraph/<obfuscated>
│   │   ├── paragraph/<obfuscated>
│   │   ├── callout/<obfuscated>
│   │   ├── paragraph/<obfuscated>
│   │   ├── paragraph/<obfuscated>
│   │   ├── table/<obfuscated>
│   │   │   ├── table_row/<obfuscated>
│   │   │   ├── table_row/<obfuscated>
│   │   │   ├── table_row/<obfuscated>
│   │   │   ├── table_row/<obfuscated>
│   │   ├── heading_2/<obfuscated>
│   │   │   ├── paragraph/<obfuscated>
│   │   │   ├── bulleted_list_item/<obfuscated>
│   │   │   ├── heading_3/<obfuscated>
│   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   ├── callout/<obfuscated>
│   │   │   │   ├── heading_3/<obfuscated>
│   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   ├── numbered_list_item/<obfuscated>
│   │   │   │   │   ├── numbered_list_item/<obfuscated>
│   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   ├── callout/<obfuscated>
│   │   │   │   │   ├── bulleted_list_item/<obfuscated>
│   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   ├── bulleted_list_item/<obfuscated>
│   │   │   │   │   ├── numbered_list_item/<obfuscated>
│   │   │   │   │   ├── callout/<obfuscated>
│   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   ├── table/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   ├── numbered_list_item/<obfuscated>
│   │   │   │   │   │   ├── numbered_list_item/<obfuscated>
│   │   │   │   │   │   ├── numbered_list_item/<obfuscated>
│   │   │   ├── heading_2/<obfuscated>
│   │   │   │   ├── heading_3/<obfuscated>
│   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   ├── heading_3/<obfuscated>
│   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   ├── heading_3/<obfuscated>
│   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   ├── heading_3/<obfuscated>
│   │   │   │   │   ├── table/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   ├── heading_3/<obfuscated>
│   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   ├── table/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   ├── heading_3/<obfuscated>
│   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   ├── table/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   ├── heading_3/<obfuscated>
│   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   ├── table/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   ├── heading_3/<obfuscated>
│   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   ├── table/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   ├── heading_2/<obfuscated>
│   │   │   │   ├── callout/<obfuscated>
│   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   ├── table/<obfuscated>
│   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   ├── heading_2/<obfuscated>
│   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   ├── heading_3/<obfuscated>
│   │   │   │   │   ├── heading_3/<obfuscated>
│   │   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   │   ├── heading_3/<obfuscated>
│   │   │   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   │   │   ├── callout/<obfuscated>
│   │   │   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   │   │   ├── callout/<obfuscated>
│   │   │   │   │   │   │   ├── paragraph/<obfuscated>
│   │   │   │   │   │   │   ├── table/<obfuscated>
│   │   │   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   │   │   │   ├── table_row/<obfuscated>
│   │   │   │   │   │   │   │   ├── table_row/<obfuscated>

7tofc5zh

7tofc5zh2#

感谢您提出这个问题@gndctl-mehul -我们会在有带宽时尽快查看。

相关问题