你好,作者们!感谢你们分享了优秀的作品!
我正在尝试复制layoutreader的预训练代码。
我想知道如何创建标签数据,对于这个任务,你们有什么推荐的标注工具吗?我已经通过OCR引擎获得了单词序列及其对应的边界框坐标。
t30tvxxf1#
我们的数据集,ReadingBank,是通过使用MS Doc文件内的xml元数据自动生成的。我们在论文(https://arxiv.org/pdf/2108.11591v2.pdf)中对其进行了详细描述。由于在我们的实现中没有涉及手动标注工作,我无法推荐“好”的标注工具。然而,正如我们在论文中指出的,阅读顺序是非常主观的,人类的注解对于这个主题非常有帮助。我们感谢您为整个学术界创建更多带注解的数据,以促进这一研究主题的发展。如果您在使用代码时遇到任何问题,请告知我们,我们将乐意提供帮助!
hgncfbus2#
谢谢。我想手动标记一些数据。我希望可以使用一些工具来帮助减轻标记目标序列文本顺序的任务。
2条答案
按热度按时间t30tvxxf1#
我们的数据集,ReadingBank,是通过使用MS Doc文件内的xml元数据自动生成的。我们在论文(https://arxiv.org/pdf/2108.11591v2.pdf)中对其进行了详细描述。由于在我们的实现中没有涉及手动标注工作,我无法推荐“好”的标注工具。然而,正如我们在论文中指出的,阅读顺序是非常主观的,人类的注解对于这个主题非常有帮助。我们感谢您为整个学术界创建更多带注解的数据,以促进这一研究主题的发展。如果您在使用代码时遇到任何问题,请告知我们,我们将乐意提供帮助!
hgncfbus2#
谢谢。我想手动标记一些数据。我希望可以使用一些工具来帮助减轻标记目标序列文本顺序的任务。