当导入一个带有"label"注解的jsonl文件时,如果有任何文本长度为0的注解,Docanno将无法导入标签。
文本和元数据成功导入,但没有可用的标签。
在导入后,标签是可用的:
{"data": "EU rejects German call to boycott British lamb.", "label": [ [0, 2, "ORG"]]}
{"data": "Peter Blackburn", "label": [ [0, 15, "PERSON"] ]}
{"data": "President Obama", "label": [ [10, 15, "PERSON"] ]}
标签未导入:
{"data": "EU rejects German call to boycott British lamb.", "label": [ [0, 2, "ORG"]]}
{"data": "Peter Blackburn", "label": [ [15, 15, "PERSON"] ]}
{"data": "President Obama", "label": [ [10, 15, "PERSON"] ]}
我认为在这种情况下应该引发异常,或者使用警告消息跳过这些标签。
2条答案
按热度按时间q35jwt9p1#
你会写你的环境吗?谢谢!
5hcedyr02#
需要捕获的错误是:
在 dd263a0 文件的第68行到第81行,类名为 classSpanLabel 的 Label 类中,
__lt__
方法存在问题。当前的实现只比较了 start_offset 和 end_offset 的大小,但实际上应该比较它们的起始位置。为了解决这个问题,可以在__lt__
方法中修改比较逻辑。另外,在 dd263a0 文件的第85行到第105行,类名为 classLabelMaker 的类中,
make
方法存在问题。当前的实现没有检查列是否存在于 DataFrame 中,直接进行了后续操作。为了解决这个问题,可以在make
方法中添加检查列是否存在的逻辑。以下是修改后的代码: