unstructured feat/code-snippets-context

@asm0dey 经过一段时间的思考，我不认为unstructured能够提供你所需要的内容。
特别是，代码片段将被解析为一个独立的段落，因此将Map到一个独立的CodeSnippet元素。
如果你想要“分组”叙述性文本(即代码片段前后的段落),你需要在后处理步骤中进行，或许可以作为自定义分块器。
你还需要确定这些块是什么，因为它不再是一个叙述性文本元素，也不再是一个CodeSnippet元素。也许CompositeElement对你来说会有所帮助。
总之，在Markdown/HTML中识别CodeSnippet元素是朝着正确方向迈出的一步。

赞(0）回复(0）举报 2个月前

50few1ms4#

是的，而且也许将其设为原子操作是有意义的，对吧？因为将代码片段拆分从来都没有意义。

赞(0）回复(0）举报 2个月前

u0njafvf5#

嗯，是的，但语义和文档结构并不总是相互关联的。此外，如果你正在进行分块，而片段的大小大于指定的块大小，那么它将被分割。
但一般来说，在HTML分区格式(包括Markdown)中，我希望看到片段作为一个单独的 <pre> 元素，没有嵌入的块元素( <p> 或 <div> 等),这样它自然地会作为单个文档元素进行分区。

赞(0）回复(0）举报 2个月前

我来回答

unstructured feat/code-snippets-context

5条答案

相关问题

热门标签

最新问答