unilm [layoutreader] 推荐用于阅读顺序检测的优秀标签工具

4uqofj5v  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(29)

你好,作者们!感谢你们分享了优秀的作品!

我正在尝试复制layoutreader的预训练代码。

我想知道如何创建标签数据,对于这个任务,你们有什么推荐的标注工具吗?我已经通过OCR引擎获得了单词序列及其对应的边界框坐标。

t30tvxxf

t30tvxxf1#

我们的数据集,ReadingBank,是通过使用MS Doc文件内的xml元数据自动生成的。我们在论文(https://arxiv.org/pdf/2108.11591v2.pdf)中对其进行了详细描述。由于在我们的实现中没有涉及手动标注工作,我无法推荐“好”的标注工具。然而,正如我们在论文中指出的,阅读顺序是非常主观的,人类的注解对于这个主题非常有帮助。我们感谢您为整个学术界创建更多带注解的数据,以促进这一研究主题的发展。如果您在使用代码时遇到任何问题,请告知我们,我们将乐意提供帮助!

hgncfbus

hgncfbus2#

谢谢。我想手动标记一些数据。我希望可以使用一些工具来帮助减轻标记目标序列文本顺序的任务。

相关问题