allennlp 扩展TokenEmbedder和Tokenizer词汇表的选项,

cld4siwp 于 2个月前发布在其他

关注(0)|答案(1)|浏览(41)

您的功能请求是否与问题相关？请描述。

我希望在微调之前在我模型中使用预训练的嵌入层，并可能在微调之前扩展词汇表。目前，除非我编写自己的训练命令，否则无法使用配置文件实现这一点。这样的功能在微调一个通用Transformer模型时非常有用，特别是在PretrainedTransformerEmbedder层中针对特定领域进行微调。
理想情况下，这种方法应该适用于任何TokenEmbedder,并将如何扩展词汇表的详细信息留给具体的类。根据嵌入器，我们还可能希望将额外的单词传递给分词器。就PretrainedTransformerEmbedder而言，Huggingface API提供了一种扩展分词器和模型词汇表的方法(参考：https://huggingface.co/transformers/main_classes/tokenizer.html#transformers.PreTrainedTokenizer.add_tokens )。

描述您希望实现的解决方案

我认为实现此目标的最简单方法是在TokenEmbedder和Tokenizer构造函数中添加一个额外的参数，该参数指向一个额外的词汇表文件(也可以包含权重以初始化嵌入器的额外词汇标记)。

描述您考虑过的替代方案

我没有真正考虑过其他方法。如果建议的方法似乎不合理，我可以提出替代方案。

allennlp

来源：https://github.com/allenai/allennlp/issues/4397