BERTopic 语义句子分割 ```markdown 语义句子分割 ```

dbf7pr2w  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(26)

我正在处理一个主要由较长文档组成的语料库。我正在寻求对它们进行语义分词的最有效方法的建议。
示例:

Original Text: "I like the ambiance but the food was terrible."
Desired Output: ["I like the ambiance"] ["but the food was terrible."]

Original Text: "I don't know. I like the restaurant but not the food."
Desired Output: ["I don't know."] ["I like the restaurant"] ["but not the food."]

对于如何实现这一点,任何建议或建议都将非常感谢!

3bygqnnd

3bygqnnd1#

你好!我可能弄错了,但我不认为有一种通用的技术用于这类语义句子分词,因为原始的分离高度依赖于语义分离的抽象水平。有一些小技巧,比如使用连词和句子分隔符来创建候选分割,然后使用嵌入技术来表示它们之间的潜在差异。
例如,你可以使用句子分隔器将输入进行分割,然后根据这些句子中是否存在连词进一步分割句子。然后,使用任何嵌入技术对生成的候选短语/句子进行嵌入。最后,如果顺序候选短语足够相似(用户指定的阈值),则将它们合并。
这并不完美,但总体原则(至少在我脑海中)似乎确实可行。

相关问题