unstructured 在ADV表单上对元素类型的错误分类

oprakyz7  于 1个月前  发布在  其他
关注(0)|答案(3)|浏览(33)

我正在本地使用hi_res模型,并尝试了有分块和无分块的情况。我还尝试通过API使用chipper模型,但也遇到了类似的问题。

我们在尝试在ADV宣传册上使用时遇到的主要问题 -

  1. 分类问题 - 在某些情况下,标题及其对应的文本被归类为单个标记,整个底层文本的父级指向页面的页眉。例如,以下图像是从Blackrock pdf( https://files.adviserinfo.sec.gov/IAPD/Content/Common/crd_iapd_Brochure.aspx?BRCHR_VRSN_ID=848663 )的第2页的片段中截取的。

在上面的片段文本中,Item 2. Material Changes Since the last annual update to the Form ADV Part 2A (the “Brochure”) on March 31, 2022, material changes to this Brochure include amendments to the following items:被归类为叙述性文本,这本来不应该发生。

  1. 表格提取问题 - 以下片段取自Blackrock pdf(链接在问题1中)的第24页。

我们没有收到上述表格的正确结构。

  1. 多列文档 - 我们无法获取多列PDF的正确结构。首先,识别右侧列,然后是左侧列(也是逐行)。理想情况下,整个左侧列应该一次性被识别,然后是整个右侧列。
    https://files.adviserinfo.sec.gov/IAPD/Content/Common/crd_iapd_Brochure.aspx?BRCHR_VRSN_ID=821958
  2. 分块问题 - 在继续问题1的情况下,如果文本没有正确地分类为标题,那么分块也不会正常工作。
    请就这些问题提供支持。
aiqt4smr

aiqt4smr1#

感谢lavish2210的报告。我们目前正在进行数据标注以改进我们的分区模型,并将在数据集中包含此项。

gk7wooem

gk7wooem2#

如果能分享一下解决上述所有问题的计划时间表,那就太好了。

o3imoua4

o3imoua43#

我们将在Slack频道中发布与模型相关的更新时间表。

相关问题