文本5 April 2009.
位于句子末尾,其中2009.
位于下一行。列表检测标记该行为列表中的第10项。
2009年被检测为下一个列表项,但本不应该如此。禁用列表检测会产生正确的输出。
一个不改变内容的中间地带是将其设置为项目编号2009而不是项目编号10。
原文来自PDF
提取的文本
在axarev/parsr:latest
上测试
测试文件1页 Ketley_v_HMRC-2.pdf
文本5 April 2009.
位于句子末尾,其中2009.
位于下一行。列表检测标记该行为列表中的第10项。
2009年被检测为下一个列表项,但本不应该如此。禁用列表检测会产生正确的输出。
一个不改变内容的中间地带是将其设置为项目编号2009而不是项目编号10。
原文来自PDF
提取的文本
在axarev/parsr:latest
上测试
测试文件1页 Ketley_v_HMRC-2.pdf
1条答案
按热度按时间8gsdolmq1#
我对
ListDetectionModule
的理解是,removeNumberingFromList
在这里修改了列表,也许removeNumberingFromList
可以是一个可选步骤。