我有一个包含省略号(...)的演讲记录数据集,用于表示说话者的停顿。我正在使用BERT嵌入进行文本分类。对我来说,非常重要的是BERT模型能够正确识别这些省略号(...)。目前,它将它们视为3个单独的句号,所以我不确定它是否能捕捉到语音记录中重要“说话者停顿”的上下文。在这种情况下,我可以采取什么措施?我应该用其他符号(如井号或破折号)替换省略号(...)吗?还是让它们保持原样?
mlnl4t2r1#
也许 #9 ?
v8wbuo2f2#
你好fliptrail,你的数据集有多大?你是在微调一个预训练的BERT模型吗?原始的BERT是在书籍和维基百科上进行训练的,所以它并不会已经“理解”说话者暂停的概念。我认为你需要大量的自己的数据来教BERT关于说话者暂停的知识。我建议你在你的转录数据集中用逗号替换......,因为书面逗号与说话者暂停非常相似。或者,如果你真的想让BERT尝试学习......不等于逗号,你可以尝试用冒号替换......。
2条答案
按热度按时间mlnl4t2r1#
也许 #9 ?
v8wbuo2f2#
你好fliptrail,
你的数据集有多大?你是在微调一个预训练的BERT模型吗?
原始的BERT是在书籍和维基百科上进行训练的,所以它并不会已经“理解”说话者暂停的概念。我认为你需要大量的自己的数据来教BERT关于说话者暂停的知识。
我建议你在你的转录数据集中用逗号替换......,因为书面逗号与说话者暂停非常相似。
或者,如果你真的想让BERT尝试学习......不等于逗号,你可以尝试用冒号替换......。