我已经下载了SROIE数据集。它包含Box、img和key文件夹。一旦预处理完成,我运行以下命令:
!python "run_seq_labeling.py" --data_dir "output_receipt" --model_type layoutlm --model_name_or_path "model_LM/" --do_lower_case --max_seq_length 512 --do_train --num_train_epochs 2 --logging_steps 10 --save_steps -1 --output_dir "out_model_receipt/" --overwrite_output_dir --labels "labels_receipt.txt" --per_gpu_train_batch_size 16 --per_gpu_eval_batch_size 16 --fp16
出现的错误是:
File "/content/drive/My Drive/unilm/layoutlm/examples/seq_labeling/run_seq_labeling.py", line 811, in main()
File "/content/drive/My Drive/unilm/layoutlm/examples/seq_labeling/run_seq_labeling.py", line 701, in main
args, tokenizer, labels, pad_token_label_id, mode="train"
File "/content/drive/My Drive/unilm/layoutlm/examples/seq_labeling/layoutlm/data/funsd.py", line 72, in **init**
self.all_bboxes = torch.tensor([f.boxes for f in features], dtype=torch.long)
ValueError: expected sequence of length 4 at dim 2 (got 8)
这个错误是因为在创建all_bboxes
时,期望得到一个长度为4的序列,但实际上得到了一个长度为8的序列。
8条答案
按热度按时间djmepvbi1#
基本上,您可能需要将SROIE数据集预处理为token级别,并将数据输入LayoutLM。
ijnw1ujt2#
在对我自己的数据集进行预处理之后,我能够进行训练。但是在预测阶段,在运行--do predict程序后,我可以看到text_prediction.txt文件,但它只显示前16个。我不知道为什么它没有检测到其他的?
cqoc49vn3#
可能有帮助: https://github.com/ruifcruz/sroie-on-layoutlm
jutyujz04#
我有一些发票数据集,我想对其进行注解,以便通过layoutlm运行。但问题是,我应该在哪里进行注解?我找不到一个工具,它可以接受文档的图像并允许我对其进行注解,然后返回我可以进一步输入到layoutlm的文本文件。我尝试过UBIAI,但那个工具是付费的。有人能向我推荐一个类似于UBIAI的东西吗?
r1zk6ea15#
我有一些发票数据集,我想对其进行注解,以便通过layoutlm运行。但问题是,我应该在哪里进行注解?我找不到一个工具,它可以接受文档的图像,让我对它进行注解,并返回我可以进一步输入到layoutlm的文本文件。我尝试过UBIAI,但那个工具是付费的。有人能推荐一个类似于UBIAI的工具吗?
你好,关于注解工具有什么进展吗?我也尝试过,但除了UBIAI之外,找不到其他工具......
t40tm48m6#
我有一个发票数据集,我想对其进行注解,以便通过layoutlm运行。但问题是,我应该在哪里进行注解?我找不到一个工具,它可以接受文档的图像并允许我对其进行注解,然后返回我可以进一步输入到layoutlm的文本文件。我尝试过UBIAI,但那个工具是付费的。有人能推荐一个类似于UBIAI的标注工具吗?
你好,关于标注工具有什么进展吗?我也尝试过,但除了UBIAI之外找不到其他工具......你找到这样的标签工具了吗?我也在寻找同样的。
nx7onnlm7#
我有一个发票数据集,我想对其进行注解,以便通过layoutlm运行。但问题是,我应该在哪里注解它?我找不到一个工具,它可以接受文档的图像并允许我注解它,然后返回我可以进一步输入到layoutlm的文本文件。我尝试过UBIAI,但那个工具是付费的。有人能推荐一个类似于UBIAI的工具吗?
你好,关于注解工具有什么进展吗?我也尝试过,但除了UBIAI之外找不到其他的......
你找到任何这样的标记工具了吗?即使我在寻找同样的。
没有,UBIAI上有一个预算协商的选项。我使用了那个。
brc7rcf08#
我有一些发票数据集,我想对其进行注解,以便通过layoutlm运行。但问题是,我应该在哪里进行注解?我找不到一个工具,它可以接受文档的图像并允许我对其进行注解,然后返回我可以进一步输入到layoutlm的文本文件。我尝试过UBIAI,但那个工具是付费的。有人能推荐一个类似于UBIAI的东西吗?
我不确定这是否完全相关,但我找到了Layout Parser和Label Studio。
链接:https://www.youtube.com/watch?v=puOKTFXRyr4&ab_channel=LabelStudio