我们能否使用预训练的BERT模型来进行对话语音中的标点符号预测?例如,对自动语音识别(ASR)输出进行标点符号标注?
xzabzqsa1#
我也对此感兴趣。
j1dl9f462#
我不认为BERT可以被用来预测下一个词(即,作为一个语言模型)。所以我最后不得不使用一个fastai语言模型(在wikitext-103上预训练的)来预测下一个标记是否可能是一个标点符号。参见$x_{1e0f1}x$
y53ybaqx3#
你好,Corkindrill!
我只是好奇地想知道这些问题的答案。我既不反驳也不支持关于BERT的说法。请不要将这些问题视为防御性或对抗性的。谢谢Milind...
在周三,2020年1月29日早上7:41 AM,corkindrill ***@***.***>写道:我认为BERT不能用来预测下一个词(即作为语言模型)。所以我不得不使用一个fastai语言模型(在wikitext-103上预训练)来预测下一个标记是否可能是一个标点符号。参见https://youtu.be/qqt3aMPB81c?t=1544 ——你收到这封邮件是因为你订阅了这个线程。直接回复这封邮件,查看它在GitHub上的<#346?email_source=notifications&email_token=AB65CSO7DTO2MV2BD3DWJD3RADQUPA5CNFSM4GPDWS42YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEKFWHKQ#issuecomment-579560362>,或者取消订阅< https://github.com/notifications/unsubscribe-auth/AB65CSN72JNRCTARMWG5BA3RADQUPANCNFSM4GPDWS4Q >。
hi3rlvi24#
实际上我们可以做到!
bttbmeg05#
@cvenour关于下一个标记是否可能是标点符号的预测也是一个有趣的想法!你能和我们分享你的代码吗?
w6lpcovy6#
我的代码几乎完全是从这个fastai笔记本中复制的:https://github.com/fastai/course-v3/blob/master/nbs/dl1/lesson3-imdb.ipynb该笔记本的创建者加载了一个语言模型,该模型已经在名为wikitext-103的语料库上进行了预训练,然后在该他真正关心的语料库上对该语言模型进行了微调。在将该语言模型变成分类器之前(这是他的笔记本的主要目标,但不是我的主要目标),他花了一些时间对微调后的语言模型进行一些实验,以便根据输入的句子片段预测下一个标记可能是什么。因此,要了解如何实现一个语言模型,请查看该笔记本中在“分类器”部分之前的全部代码。
ttygqcqt7#
你好,thombrem。我询问了BERT的创建者Jacob Devlin,他表示BERT不能用作语言模型,因为它没有经过这样的训练。但是看起来al-yakubovich为你找到了一个解决方案,将BERT适应性地修改为预测下一个标记。
在周三,2020年1月29日,上午7:41,corkindrill ***@***.***>写道:我认为BERT不能用来预测下一个单词(即作为语言模型)。所以我不得不使用一个预训练于wikitext-103的fastai语言模型来预测下一个标记是否可能是一个标点符号。参见https://youtu.be/qqt3aMPB81c?t=1544——你收到这封邮件是因为你订阅了这个线程。直接回复此电子邮件,查看GitHub上的#346问题评论<#346?email_source=notifications&email_token=AB65CSO7DTO2MV2BD3DWJD3RADQUPA5CNFSM4GPDWS42YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEKFWHKQ#issuecomment-579560362>,或者取消订阅< https://github.com/notifications/unsubscribe-auth/AB65CSN72JNRCTARMWG5BA3RADQUPANCNFSM4GPDWS4Q >。——你收到这封邮件是因为你发表了评论。直接回复此电子邮件,查看GitHub上的#346问题评论<#346?email_source=notifications&email_token=ACYKQGQWXVNF7IYSBFN5HYDRAFMVJA5CNFSM4GPDWS42YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEKGXZIA#issuecomment-579697824>,或者取消订阅< https://github.com/notifications/unsubscribe-auth/ACYKQGXM3F4D5BH5GBSZTMLRAFMVJANCNFSM4GPDWS4Q >。
oalqel3c8#
亲爱的corkindrill,
如果您有与Delvin的对话记录(包括语音/文本/视频等),您是否可以分享原始通信?这是为了我的培训和质量目的。当然,在公开任何此类通信之前,您必须尊重Delvin和其他BERT作者的隐私担忧。另一方面,请以您自己的语言发布接受或拒绝发表的回复,除非这也被视为侵犯隐私。:)~Milind
周三,1月29日,2020年晚上11点26分,corkindrill notifications@github.com写道:...
你好thombrem,我问了BERT的创建者Jacob Devlin,他表示BERT不能被用作语言模型,因为它没有被这样训练过。但是看起来al-yakubovich为你提供了一个解决方案,将BERT某种程度上进行了调整,使其能够进行下一个标记的预测。
发件人:Milind Thombre ***@***.***>发送时间:1月29日,3:43 AM收件人:google-research/bert ***@***.***>抄送:corkindrill ***@***.***>;主题:Re: [google-research/bert] 我们能否使用BERT进行标点符号预测? (#346)
您好corkindrill!
x3naxklr9#
2020-01-29 06:56:24, "Alexander" notifications@github.com写道:也感兴趣——您收到此邮件是因为您订阅了此线程。直接回复此邮件,在GitHub上查看,或取消订阅。
9条答案
按热度按时间xzabzqsa1#
我也对此感兴趣。
j1dl9f462#
我不认为BERT可以被用来预测下一个词(即,作为一个语言模型)。所以我最后不得不使用一个fastai语言模型(在wikitext-103上预训练的)来预测下一个标记是否可能是一个标点符号。参见$x_{1e0f1}x$
y53ybaqx3#
你好,Corkindrill!
我只是好奇地想知道这些问题的答案。我既不反驳也不支持关于BERT的说法。请不要将这些问题视为防御性或对抗性的。谢谢Milind...
在周三,2020年1月29日早上7:41 AM,corkindrill ***@***.***>写道:我认为BERT不能用来预测下一个词(即作为语言模型)。所以我不得不使用一个fastai语言模型(在wikitext-103上预训练)来预测下一个标记是否可能是一个标点符号。参见https://youtu.be/qqt3aMPB81c?t=1544 ——你收到这封邮件是因为你订阅了这个线程。直接回复这封邮件,查看它在GitHub上的<#346?email_source=notifications&email_token=AB65CSO7DTO2MV2BD3DWJD3RADQUPA5CNFSM4GPDWS42YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEKFWHKQ#issuecomment-579560362>,或者取消订阅< https://github.com/notifications/unsubscribe-auth/AB65CSN72JNRCTARMWG5BA3RADQUPANCNFSM4GPDWS4Q >。
hi3rlvi24#
实际上我们可以做到!
bttbmeg05#
@cvenour关于下一个标记是否可能是标点符号的预测也是一个有趣的想法!你能和我们分享你的代码吗?
w6lpcovy6#
我的代码几乎完全是从这个fastai笔记本中复制的:https://github.com/fastai/course-v3/blob/master/nbs/dl1/lesson3-imdb.ipynb
该笔记本的创建者加载了一个语言模型,该模型已经在名为wikitext-103的语料库上进行了预训练,然后在该他真正关心的语料库上对该语言模型进行了微调。在将该语言模型变成分类器之前(这是他的笔记本的主要目标,但不是我的主要目标),他花了一些时间对微调后的语言模型进行一些实验,以便根据输入的句子片段预测下一个标记可能是什么。
因此,要了解如何实现一个语言模型,请查看该笔记本中在“分类器”部分之前的全部代码。
ttygqcqt7#
你好,thombrem。我询问了BERT的创建者Jacob Devlin,他表示BERT不能用作语言模型,因为它没有经过这样的训练。但是看起来al-yakubovich为你找到了一个解决方案,将BERT适应性地修改为预测下一个标记。
在周三,2020年1月29日,上午7:41,corkindrill ***@***.***>写道:我认为BERT不能用来预测下一个单词(即作为语言模型)。所以我不得不使用一个预训练于wikitext-103的fastai语言模型来预测下一个标记是否可能是一个标点符号。参见https://youtu.be/qqt3aMPB81c?t=1544——你收到这封邮件是因为你订阅了这个线程。直接回复此电子邮件,查看GitHub上的#346问题评论<#346?email_source=notifications&email_token=AB65CSO7DTO2MV2BD3DWJD3RADQUPA5CNFSM4GPDWS42YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEKFWHKQ#issuecomment-579560362>,或者取消订阅< https://github.com/notifications/unsubscribe-auth/AB65CSN72JNRCTARMWG5BA3RADQUPANCNFSM4GPDWS4Q >。
——你收到这封邮件是因为你发表了评论。直接回复此电子邮件,查看GitHub上的#346问题评论<#346?email_source=notifications&email_token=ACYKQGQWXVNF7IYSBFN5HYDRAFMVJA5CNFSM4GPDWS42YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEKGXZIA#issuecomment-579697824>,或者取消订阅< https://github.com/notifications/unsubscribe-auth/ACYKQGXM3F4D5BH5GBSZTMLRAFMVJANCNFSM4GPDWS4Q >。
oalqel3c8#
亲爱的corkindrill,
如果您有与Delvin的对话记录(包括语音/文本/视频等),您是否可以分享原始通信?这是为了我的培训和质量目的。当然,在公开任何此类通信之前,您必须尊重Delvin和其他BERT作者的隐私担忧。另一方面,请以您自己的语言发布接受或拒绝发表的回复,除非这也被视为侵犯隐私。:)~Milind
周三,1月29日,2020年晚上11点26分,corkindrill notifications@github.com写道:...
你好thombrem,我问了BERT的创建者Jacob Devlin,他表示BERT不能被用作语言模型,因为它没有被这样训练过。但是看起来al-yakubovich为你提供了一个解决方案,将BERT某种程度上进行了调整,使其能够进行下一个标记的预测。
发件人:Milind Thombre ***@***.***>
发送时间:1月29日,3:43 AM
收件人:google-research/bert ***@***.***>
抄送:corkindrill ***@***.***>;
主题:Re: [google-research/bert] 我们能否使用BERT进行标点符号预测? (#346)
您好corkindrill!
周三,1月29日,2020年晚上7点41分,corkindrill ***@***.***>写道: > 我并不认为BERT可以用来预测下一个单词(即作为语言模型)。因此,我不得不使用一个fastai语言模型(在wikitext-103上预训练),以预测下一个标记是否可能是一个标点符号。参见 https://youtu.be/qqt3aMPB81c?t=1544 > > — > 您收到此邮件是因为您订阅了此线程。直接回复此电子邮件,查看GitHub上的< #346?email_source=notifications&email_token=AB65CSO7DTO2MV2BD3DWJD3RADQUPA5CNFSM4GPDWS42YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEKFWHKQ#issuecomment-579560362 >,或者取消订阅< https://github.com/notifications/unsubscribe-auth/AB65CSN72JNRCTARMWG5BA3RADQUPANCNFSM4GPDWS4Q >。— 您收到此邮件是因为您评论了。直接回复此电子邮件,查看GitHub< #346?email_source=notifications&email_token=ACYKQGQWXVNF7IYSBFN5HYDRAFMVJA5CNFSM4GPDWS42YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEKGXZIA#issuecomment-579697824>,或者取消订阅< https://github.com/notifications/unsubscribe-auth/ACYKQGXM3F4D5BH5GBSZTMLRAFMVJANCNFSM4GPDWS4Q >。— 您收到此邮件是因为您评论了。直接回复此电子邮件,查看GitHub <#346?email_source=notifications&email_token=AB65CSPCKHIJXHTB4RMZBNDRAG7MVA5CNFSM4GPDWS42YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEKIEPZQ#issuecomment-579880934>,或者取消订阅 < https://github.com/notifications/unsubscribe-auth/AB65CSKTVXB5FZQ2VEO3AS3RAG7MVANCNFSM4GPDWS4Q >。
x3naxklr9#
2020-01-29 06:56:24, "Alexander" notifications@github.com写道:也感兴趣——您收到此邮件是因为您订阅了此线程。直接回复此邮件,在GitHub上查看,或取消订阅。