你的功能请求是否与问题有关?请描述。
在文档层次结构实现的后续中,拥有一个内置函数来对具有相同 parent_id
的元素进行分组将是有益的。
描述你想要的解决方案
类似于 chunk_by_title,但父类型并不总是 Title
。
描述你考虑过的替代方案
将具有相同 parent_id
的元素分组,并将前一个元素分配为 parent_id
为 None 的父元素。
附加上下文
n/a
你的功能请求是否与问题有关?请描述。
在文档层次结构实现的后续中,拥有一个内置函数来对具有相同 parent_id
的元素进行分组将是有益的。
描述你想要的解决方案
类似于 chunk_by_title,但父类型并不总是 Title
。
描述你考虑过的替代方案
将具有相同 parent_id
的元素分组,并将前一个元素分配为 parent_id
为 None 的父元素。
附加上下文
n/a
4条答案
按热度按时间mwecs4sa1#
关于这个问题,有没有相关的新闻或者一个解决方法来根据父级ID对数据块进行分组?
eivnm1vs2#
当前的
chunk_by_title
函数无法保留父子关系。通常,一个父级会被分组到前一个块中,尽管它本身不是前一个块的子级。希望看到一个新的方法,该方法将尊重父子关系。5uzkadbs3#
也在寻找这样的功能。
5cnsuln74#
如果有人对将这个作为第一期感兴趣,我认为在
unstructured/utils.py
上是有意义的。