我们能否使用BERT进行标点符号预测?

vuv7lop3  于 5个月前  发布在  其他
关注(0)|答案(9)|浏览(49)

我们能否使用预训练的BERT模型来进行对话语音中的标点符号预测?例如,对自动语音识别(ASR)输出进行标点符号标注?

xzabzqsa

xzabzqsa1#

我也对此感兴趣。

j1dl9f46

j1dl9f462#

我不认为BERT可以被用来预测下一个词(即,作为一个语言模型)。所以我最后不得不使用一个fastai语言模型(在wikitext-103上预训练的)来预测下一个标记是否可能是一个标点符号。参见$x_{1e0f1}x$

y53ybaqx

y53ybaqx3#

你好,Corkindrill!

  1. 你认为BERT不能用来预测下一个词的原因是什么?
  2. 这是一个事实还是一个观点?
  3. 如果你认为这是一个事实,那么有什么证据支持你的假设吗?
  4. fastai语言模型的最佳和最差的F1分数是多少?
  5. fastai需要多少训练数据才能成为一个有效的英语语言模型?

我只是好奇地想知道这些问题的答案。我既不反驳也不支持关于BERT的说法。请不要将这些问题视为防御性或对抗性的。谢谢Milind...

在周三,2020年1月29日早上7:41 AM,corkindrill ***@***.***>写道:我认为BERT不能用来预测下一个词(即作为语言模型)。所以我不得不使用一个fastai语言模型(在wikitext-103上预训练)来预测下一个标记是否可能是一个标点符号。参见https://youtu.be/qqt3aMPB81c?t=1544 ——你收到这封邮件是因为你订阅了这个线程。直接回复这封邮件,查看它在GitHub上的<#346?email_source=notifications&email_token=AB65CSO7DTO2MV2BD3DWJD3RADQUPA5CNFSM4GPDWS42YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEKFWHKQ#issuecomment-579560362>,或者取消订阅< https://github.com/notifications/unsubscribe-auth/AB65CSN72JNRCTARMWG5BA3RADQUPANCNFSM4GPDWS4Q >。

hi3rlvi2

hi3rlvi24#

实际上我们可以做到!

bttbmeg0

bttbmeg05#

@cvenour关于下一个标记是否可能是标点符号的预测也是一个有趣的想法!你能和我们分享你的代码吗?

w6lpcovy

w6lpcovy6#

我的代码几乎完全是从这个fastai笔记本中复制的:https://github.com/fastai/course-v3/blob/master/nbs/dl1/lesson3-imdb.ipynb
该笔记本的创建者加载了一个语言模型,该模型已经在名为wikitext-103的语料库上进行了预训练,然后在该他真正关心的语料库上对该语言模型进行了微调。在将该语言模型变成分类器之前(这是他的笔记本的主要目标,但不是我的主要目标),他花了一些时间对微调后的语言模型进行一些实验,以便根据输入的句子片段预测下一个标记可能是什么。
因此,要了解如何实现一个语言模型,请查看该笔记本中在“分类器”部分之前的全部代码。

ttygqcqt

ttygqcqt7#

你好,thombrem。我询问了BERT的创建者Jacob Devlin,他表示BERT不能用作语言模型,因为它没有经过这样的训练。但是看起来al-yakubovich为你找到了一个解决方案,将BERT适应性地修改为预测下一个标记。

  1. 为什么你认为BERT不能用来预测下一个单词?
  2. 这是事实还是观点?
  3. 如果你认为这是事实,有没有证据支持你的假设?
  4. fastai语言模型的最佳和最差F1分数是多少?
  5. fastai需要多少训练数据才能成为有效的英语语言模型?我只是好奇地想知道这些问题的答案。我既不反驳也不支持关于BERT的说法。请不要把这些问题当作防御性的或对抗性的。谢谢Milind。

在周三,2020年1月29日,上午7:41,corkindrill ***@***.***>写道:我认为BERT不能用来预测下一个单词(即作为语言模型)。所以我不得不使用一个预训练于wikitext-103的fastai语言模型来预测下一个标记是否可能是一个标点符号。参见https://youtu.be/qqt3aMPB81c?t=1544——你收到这封邮件是因为你订阅了这个线程。直接回复此电子邮件,查看GitHub上的#346问题评论<#346?email_source=notifications&email_token=AB65CSO7DTO2MV2BD3DWJD3RADQUPA5CNFSM4GPDWS42YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEKFWHKQ#issuecomment-579560362>,或者取消订阅< https://github.com/notifications/unsubscribe-auth/AB65CSN72JNRCTARMWG5BA3RADQUPANCNFSM4GPDWS4Q >。
——你收到这封邮件是因为你发表了评论。直接回复此电子邮件,查看GitHub上的#346问题评论<#346?email_source=notifications&email_token=ACYKQGQWXVNF7IYSBFN5HYDRAFMVJA5CNFSM4GPDWS42YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEKGXZIA#issuecomment-579697824>,或者取消订阅< https://github.com/notifications/unsubscribe-auth/ACYKQGXM3F4D5BH5GBSZTMLRAFMVJANCNFSM4GPDWS4Q >。

oalqel3c

oalqel3c8#

亲爱的corkindrill,

如果您有与Delvin的对话记录(包括语音/文本/视频等),您是否可以分享原始通信?这是为了我的培训和质量目的。当然,在公开任何此类通信之前,您必须尊重Delvin和其他BERT作者的隐私担忧。另一方面,请以您自己的语言发布接受或拒绝发表的回复,除非这也被视为侵犯隐私。:)~Milind

周三,1月29日,2020年晚上11点26分,corkindrill notifications@github.com写道:...

你好thombrem,我问了BERT的创建者Jacob Devlin,他表示BERT不能被用作语言模型,因为它没有被这样训练过。但是看起来al-yakubovich为你提供了一个解决方案,将BERT某种程度上进行了调整,使其能够进行下一个标记的预测。


发件人:Milind Thombre ***@***.***>
发送时间:1月29日,3:43 AM
收件人:google-research/bert ***@***.***>
抄送:corkindrill ***@***.***>;
主题:Re: [google-research/bert] 我们能否使用BERT进行标点符号预测? (#346)

您好corkindrill!

  1. 您为什么认为BERT不能用于预测下一个单词?
  2. 这是事实还是观点?
  3. 如果您认为这是事实,是否有证据支持您的假设?
  4. fastai语言模型的最佳和最差F1分数是多少?
  5. fastai需要多少训练数据才能成为有效的英语语言模型?我只是好奇地想知道这些问题的答案。我既不反驳也不支持关于BERT的说法。请不要将这些问题视为防御性或对抗性。谢谢Milind
    周三,1月29日,2020年晚上7点41分,corkindrill ***@***.***>写道: > 我并不认为BERT可以用来预测下一个单词(即作为语言模型)。因此,我不得不使用一个fastai语言模型(在wikitext-103上预训练),以预测下一个标记是否可能是一个标点符号。参见 https://youtu.be/qqt3aMPB81c?t=1544 > > — > 您收到此邮件是因为您订阅了此线程。直接回复此电子邮件,查看GitHub上的< #346?email_source=notifications&email_token=AB65CSO7DTO2MV2BD3DWJD3RADQUPA5CNFSM4GPDWS42YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEKFWHKQ#issuecomment-579560362 >,或者取消订阅< https://github.com/notifications/unsubscribe-auth/AB65CSN72JNRCTARMWG5BA3RADQUPANCNFSM4GPDWS4Q >。— 您收到此邮件是因为您评论了。直接回复此电子邮件,查看GitHub< #346?email_source=notifications&email_token=ACYKQGQWXVNF7IYSBFN5HYDRAFMVJA5CNFSM4GPDWS42YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEKGXZIA#issuecomment-579697824>,或者取消订阅< https://github.com/notifications/unsubscribe-auth/ACYKQGXM3F4D5BH5GBSZTMLRAFMVJANCNFSM4GPDWS4Q >。— 您收到此邮件是因为您评论了。直接回复此电子邮件,查看GitHub <#346?email_source=notifications&email_token=AB65CSPCKHIJXHTB4RMZBNDRAG7MVA5CNFSM4GPDWS42YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEKIEPZQ#issuecomment-579880934>,或者取消订阅 < https://github.com/notifications/unsubscribe-auth/AB65CSKTVXB5FZQ2VEO3AS3RAG7MVANCNFSM4GPDWS4Q >。
x3naxklr

x3naxklr9#

2020-01-29 06:56:24, "Alexander" notifications@github.com写道:也感兴趣——您收到此邮件是因为您订阅了此线程。直接回复此邮件,在GitHub上查看,或取消订阅。

相关问题