keras 如何使用已经在字符级别标记化的文本数据集？

k4emjkb1 于 2023-10-19 发布在其他

关注(0)|答案(1)|浏览(93)

我有一个文本数据集，其中包含已经标记化的文本，在字符级别，字符由空格分隔，空格由_替换，未知字符由#替换。我们的目标是使用这个数据集来训练seq 2seq或Transformer模型来纠正拼写。我在使用这个数据集时遇到了麻烦。我不清楚如何将这个数据集提供给模型。我必须在已经标记化的文本上的目标句子中添加[start]和[end]标签吗？我如何构建词汇表，因为以前我会自己预处理文本，只做单词级别的标记。我已经很努力了，但还是没能找到很多有用的信息。如果你们能指导我正确的材料/教程，我会非常感激。我对NLP的深度学习非常陌生。

keras

来源：https://stackoverflow.com/questions/74214383/how-to-use-a-text-dataset-that-is-al-ready-tokenized-at-character-level

1条答案

按热度按时间

x33g5p2x1#

您可以使用HuggingFace预训练模型或使用Tensorflow-Keras来训练seq 2seq模型。使用Tensorflow，步骤应该是：
1.为每个句子添加开始和结束标记。
1.通过删除特殊字符来清理句子。
1.创建单词索引和反向单词索引（从单词→ id和id →单词Map的字典）。
1.将每个句子填充到最大长度。
如Notebook中所述，可以使用现成的代码。
您可以直接将标记化数据集用于此模型。

赞(0）回复(0）举报 2023-10-19

我来回答

keras 如何使用已经在字符级别标记化的文本数据集？

1条答案

相关问题

热门标签

最新问答