unstructured feat/group elements by parent_id

jm81lzqq  于 3个月前  发布在  其他
关注(0)|答案(4)|浏览(48)

你的功能请求是否与问题有关?请描述。

在文档层次结构实现的后续中,拥有一个内置函数来对具有相同 parent_id 的元素进行分组将是有益的。

描述你想要的解决方案

类似于 chunk_by_title,但父类型并不总是 Title

描述你考虑过的替代方案

将具有相同 parent_id 的元素分组,并将前一个元素分配为 parent_id 为 None 的父元素。

附加上下文

n/a

mwecs4sa

mwecs4sa1#

关于这个问题,有没有相关的新闻或者一个解决方法来根据父级ID对数据块进行分组?

eivnm1vs

eivnm1vs2#

当前的chunk_by_title函数无法保留父子关系。通常,一个父级会被分组到前一个块中,尽管它本身不是前一个块的子级。希望看到一个新的方法,该方法将尊重父子关系。

5uzkadbs

5uzkadbs3#

也在寻找这样的功能。

5cnsuln7

5cnsuln74#

如果有人对将这个作为第一期感兴趣,我认为在unstructured/utils.py上是有意义的。

相关问题