unstructured infer_table_structure lead 初始化模型失败

70gysomp  于 6个月前  发布在  其他
关注(0)|答案(2)|浏览(84)

描述问题

我使用partition_pdf解析PDF文件,当我设置infer_table_structure=True时,出现了以下错误:
这个函数将在未来的版本中被弃用,unstructured将简单地使用unstructured_inference.model.base中的DEFAULT_MODEL来设置默认模型名称。初始化模型失败。
确保模型是正确的
审查参数以初始化UnstructuredTableTransformerModel对象

重现步骤

docker run -dt --name unstructured downloads.unstructured.io/unstructured-io/unstructured:latest
docker exec -it unstructured bash

我的代码如下:

from unstructured.partition.pdf import partition_pdf
from collections import Counter

try:
    elements = partition_pdf(
        filename=filename,
        strategy='hi_res',
        infer_table_structure=True
    )
   print(Counter(type(element) for element in elements))
except Exception as e:
    print(e)

预期行为

我想通过设置infer_table_structure=True来获取表格数据。当我将infer_table_structure设置为False时,程序正常运行。

环境信息

[notebook-user@57ba27f71222 ~]$ python3 /data/unstructured-main/scripts/collect_env.py
/data/unstructured-main/scripts/collect_env.py:5: DeprecationWarning: pkg_resources已作为API被弃用。请参阅https://setuptools.pypa.io/en/latest/pkg_resources.html
import pkg_resources
OS版本:Linux-5.4.0-42-generic-x86_64-with-glibc2.34
Python版本:3.10.13
unstructured版本:None
unstructured-inference版本:0.7.27
pytesseract版本:0.3.10
Torch版本:2.2.2
Detectron2未安装
[notice] 有新版本的pip可用:23.2.1 -> 24.0
[notice] 要更新,请运行:pip install --upgrade pip
[notice] 有新版本的pip可用:23.2.1 -> 24.0
[notice] 要更新,请运行:pip install --upgrade pip
PaddleOCR未安装
Libmagic版本:file-5.39
来自/etc/magic的魔术文件:/usr/share/misc/magic
LibreOffice版本:LibreOffice 7.1.8.1 10(Build:1)

pu3pd22g

pu3pd22g1#

你好,@spongxin -感谢你的报告!我们一有空就会查看。

yshpjwxd

yshpjwxd2#

你好,@spongxin。你能提供一个示例文件供我们使用吗?另外,你尝试过unstructured和unstructured-inference库的最新版本吗?

相关问题