1、能否使用Ernie生成词向量?把词当做句子来生成对应的向量吗
2、max_seq_len对生成的向量有影响吗?因为我默认设置是128,但生成的对应的向量的区分性比较低,做余弦距离后相似度很接近1
aiazj4mn1#
你好!PaddleHub ERNIE模块支持使用预训练的词嵌入,参考get_embedding接口:https://www.paddlepaddle.org.cn/hubdetail?name=ERNIE&en_category=SemanticModel。其中,ERNIE模块的输出pooled_output表示句子向量表示,sequence_output表示每个输入token的向量表示。
get_embedding
pooled_output
sequence_output
ngynwnxp2#
你好!PaddleHub ERNIE module支持取预训练embeddding,参考 get_embedding 接口: https://www.paddlepaddle.org.cn/hubdetail?name=ERNIE&en_category=SemanticModel其中ERNIE module的输出 pooled_output 表示句子向量表示, sequence_output 表示每个输入token的向量表示
jyztefdp3#
\n\n你好!Transformer类预训练向量包含的是通用的语义信息,其在下游任务数据集上稍稍微调下,可以取得更好的效果。上述的语义匹配任务是作为分类任务来做。如果想要计算短文本的语义相似度可以使用 word2vec_skipgram 、 tencent_ailab_chinese_embedding_small 等module,取word embedding计算cos_sim,参考文档: https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.8/docs/tutorial/sentence_sim.md
3条答案
按热度按时间aiazj4mn1#
你好!PaddleHub ERNIE模块支持使用预训练的词嵌入,参考
get_embedding
接口:https://www.paddlepaddle.org.cn/hubdetail?name=ERNIE&en_category=SemanticModel。其中,ERNIE模块的输出pooled_output
表示句子向量表示,sequence_output
表示每个输入token的向量表示。ngynwnxp2#
你好!PaddleHub ERNIE module支持取预训练embeddding,参考
get_embedding
接口: https://www.paddlepaddle.org.cn/hubdetail?name=ERNIE&en_category=SemanticModel其中ERNIE module的输出
pooled_output
表示句子向量表示,sequence_output
表示每个输入token的向量表示demo: https://github.com/PaddlePaddle/PaddleHub/tree/release/v1.8/demo/pointwise_text_matching
@Steffy-zxf 你好,再问下:
1)为什么不建议直接使用ERNIE的预训练向量计算余弦相似度;
jyztefdp3#
\n\n你好!Transformer类预训练向量包含的是通用的语义信息,其在下游任务数据集上稍稍微调下,可以取得更好的效果。上述的语义匹配任务是作为分类任务来做。如果想要计算短文本的语义相似度可以使用 word2vec_skipgram 、 tencent_ailab_chinese_embedding_small 等module,取word embedding计算cos_sim,参考文档: https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.8/docs/tutorial/sentence_sim.md