keras.tokenize.text_to_sequences和单词嵌入有什么区别

i5desfxk 于 2023-08-06 发布在其他

关注(0)|答案(1)|浏览(108)

tokenize.fit_on_text，tokenize.text_to_sequence和word embeddings的区别？
尝试在各种平台上搜索，但没有得到合适的答案。

来源：https://stackoverflow.com/questions/56466469/what-is-the-difference-between-keras-tokenize-text-to-sequences-and-word-embeddi

1条答案

按热度按时间

vatpfxk51#

单词嵌入是一种表示单词的方式，使得具有相同/相似含义的单词具有相似的表示。两种常用的学习单词嵌入的算法是Word 2 Vec和GloVe。
注意，单词嵌入也可以从零开始学习，同时训练你的神经网络进行文本处理，在你的特定的NLP问题。你也可以使用迁移学习;在这种情况下，这意味着要从你的问题上的巨大数据集中转移所学习的单词表示。
至于tokenizer（我假设我们说的是Keras），从文档中可以看出：

tokenize.fit_on_text()-->根据词频创建词汇表索引。例如，如果你有短语“我的狗和你的狗不一样，我的狗更漂亮”，word_index["dog"] = 0，word_index["is"] = 1（狗出现3次，是出现2次）
tokenize.text_to_sequence()-->将每个文本转换为一个整数序列。基本上，如果你有一个句子，它会给你句子中的每个单词分配一个整数。您可以访问tokenizer.word_index()（返回一个字典）来验证为单词指定的整数。

赞(0）回复(0）举报 2023-08-06

我来回答

keras.tokenize.text_to_sequences和单词嵌入有什么区别

1条答案

相关问题

热门标签

最新问答