keras 如何使用已经在字符级别标记化的文本数据集?

k4emjkb1  于 2023-10-19  发布在  其他
关注(0)|答案(1)|浏览(93)

我有一个文本数据集,其中包含已经标记化的文本,在字符级别,字符由空格分隔,空格由_替换,未知字符由#替换。我们的目标是使用这个数据集来训练seq 2seq或Transformer模型来纠正拼写。我在使用这个数据集时遇到了麻烦。我不清楚如何将这个数据集提供给模型。我必须在已经标记化的文本上的目标句子中添加[start]和[end]标签吗?我如何构建词汇表,因为以前我会自己预处理文本,只做单词级别的标记。我已经很努力了,但还是没能找到很多有用的信息。如果你们能指导我正确的材料/教程,我会非常感激。我对NLP的深度学习非常陌生。

x33g5p2x

x33g5p2x1#

您可以使用HuggingFace预训练模型或使用Tensorflow-Keras来训练seq 2seq模型。使用Tensorflow,步骤应该是:
1.为每个句子添加开始和结束标记。
1.通过删除特殊字符来清理句子。
1.创建单词索引和反向单词索引(从单词→ id和id →单词Map的字典)。
1.将每个句子填充到最大长度。
Notebook中所述,可以使用现成的代码。
您可以直接将标记化数据集用于此模型。

相关问题