unstructured 导入非常耗时:从unnersted.partition.pdf导入partition_pdf

bnlyeluc  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(28)

t1 = time.time()
from unstructured.partition.pdf import partition_pdf
t2 = time.time()
print(t2-t1)
我运行这段代码,它花费了近1分钟。我的环境:
CPU:第13代英特尔(R)酷睿(TM)i7-13700K 3.40 GHz
内存:32.0 GB
显卡:NVIDIA 4070
这个耗时的情况正常吗?还是有问题?

puruo6ea

puruo6ea1#

如果我断开网络,我可以在正常时间导入。这会自动从互联网加载哪些信息?

7uzetpgm

7uzetpgm2#

尝试设置环境变量:

$ export SCARF_NO_ANALYTICS=true

并查看是否会有所不同。在某些网络配置中,分析似乎比预期需要更长的时间。它在README中有提到:
https://github.com/Unstructured-IO/unstructured?tab=readme-ov-file#chart_with_upwards_trend-analytics

相关问题