系统信息
- 操作系统平台和发行版(例如,Linux Ubuntu 16.04):Linux。抱歉,我找不到具体的版本,但它与这个Dockerfile相符:https://github.com/doccano/doccano/blob/v1.8.0/docker/Dockerfile
- Python版本:3.8.12
问题描述
我一直在使用Doccano进行序列标注,一小部分标签存在对齐问题,即高亮文本和输出字符索引之间相差几个字符。
例如:
其中一个注解是(96, 108, 'Company')。但是当我在字符串中使用这些索引时,它们等于"w Four Seaso",而不是"Four Seasons"(对应于日期下方的行中的高亮部分)。我正在使用Python进行检查。
类似的问题出现在相当多的注解中,通常偏移量为2-3个字符,而且它们经常伴随着相同的错误偏移量。例如,这段文本中的另一个注解(136, 167, Company)应该指的是"Four Seasons Hotels and Resorts",但等同于文本": Four Seasons Hotels and Resor"。
我的文本确实包含孤立的"
"字符和"
"字符对,我在想Doccano是否对此有奇怪的处理方式?根据我的理解,"
"应该被视为单个字符,而"
"被视为两个单独的字符。
源代码/日志
N / A
应该通过从上面的Dockerfile构建Doccano并标记上述高亮序列来重现。然后在以下文本中标记:"Four Seasons unveils 2022 private jet itineraries
Travel and hospitality
May 14, 2021
The new Four Seasons private jet. Image credit: Four Seasons Hotels and Resorts
By Luxury Daily News Service
Hospitality group Four Seasons Hotels and Reasor... [+6040 chars]"。
谢谢!
2条答案
按热度按时间tzxcd3kk1#
你会写你的环境吗?谢谢!
nnt7mjpx2#
可能与#346有关。
抱歉,我目前无法提供更详细的环境信息。