处理BERT分词中的省略号在BERT分词中处理省略号

rhfm7lfc 于 5个月前发布在其他

关注(0)|答案(2)|浏览(46)

我有一个包含省略号(...)的演讲记录数据集，用于表示说话者的停顿。我正在使用BERT嵌入进行文本分类。对我来说，非常重要的是BERT模型能够正确识别这些省略号(...)。目前，它将它们视为3个单独的句号，所以我不确定它是否能捕捉到语音记录中重要“说话者停顿”的上下文。在这种情况下，我可以采取什么措施？我应该用其他符号(如井号或破折号)替换省略号(...)吗？还是让它们保持原样？

bert

来源：https://github.com/google-research/bert/issues/1116

2条答案

按热度按时间

mlnl4t2r1#

也许 #9 ?

赞(0）回复(0）举报 5个月前

v8wbuo2f2#

你好fliptrail,
你的数据集有多大？你是在微调一个预训练的BERT模型吗？
原始的BERT是在书籍和维基百科上进行训练的，所以它并不会已经“理解”说话者暂停的概念。我认为你需要大量的自己的数据来教BERT关于说话者暂停的知识。
我建议你在你的转录数据集中用逗号替换......,因为书面逗号与说话者暂停非常相似。
或者，如果你真的想让BERT尝试学习......不等于逗号，你可以尝试用冒号替换......。

赞(0）回复(0）举报 5个月前

我来回答

处理BERT分词中的省略号在BERT分词中处理省略号

2条答案

相关问题

热门标签

最新问答

处理BERT分词中的省略号 在BERT分词中处理省略号

2条答案

相关问题

热门标签

最新问答

处理BERT分词中的省略号在BERT分词中处理省略号