doccano 序列标签索引不匹配/不对齐

bt1cpqcv  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(32)

系统信息

问题描述
我一直在使用Doccano进行序列标注,一小部分标签存在对齐问题,即高亮文本和输出字符索引之间相差几个字符。
例如:

其中一个注解是(96, 108, 'Company')。但是当我在字符串中使用这些索引时,它们等于"w Four Seaso",而不是"Four Seasons"(对应于日期下方的行中的高亮部分)。我正在使用Python进行检查。
类似的问题出现在相当多的注解中,通常偏移量为2-3个字符,而且它们经常伴随着相同的错误偏移量。例如,这段文本中的另一个注解(136, 167, Company)应该指的是"Four Seasons Hotels and Resorts",但等同于文本": Four Seasons Hotels and Resor"。
我的文本确实包含孤立的"
"字符和"
"字符对,我在想Doccano是否对此有奇怪的处理方式?根据我的理解,"
"应该被视为单个字符,而"
"被视为两个单独的字符。

源代码/日志
N / A
应该通过从上面的Dockerfile构建Doccano并标记上述高亮序列来重现。然后在以下文本中标记:"Four Seasons unveils 2022 private jet itineraries

Travel and hospitality
May 14, 2021
The new Four Seasons private jet. Image credit: Four Seasons Hotels and Resorts
By Luxury Daily News Service
Hospitality group Four Seasons Hotels and Reasor... [+6040 chars]"。
谢谢!

tzxcd3kk

tzxcd3kk1#

你会写你的环境吗?谢谢!

nnt7mjpx

nnt7mjpx2#

可能与#346有关。
抱歉,我目前无法提供更详细的环境信息。

相关问题