PaddleHub Ernie相关问题

jutyujz0  于 5个月前  发布在  其他
关注(0)|答案(3)|浏览(109)

1、能否使用Ernie生成词向量?
把词当做句子来生成对应的向量吗

2、max_seq_len对生成的向量有影响吗?因为我默认设置是128,但生成的对应的向量的区分性比较低,做余弦距离后相似度很接近1

aiazj4mn

aiazj4mn1#

你好!PaddleHub ERNIE模块支持使用预训练的词嵌入,参考get_embedding接口:https://www.paddlepaddle.org.cn/hubdetail?name=ERNIE&en_category=SemanticModel。其中,ERNIE模块的输出pooled_output表示句子向量表示,sequence_output表示每个输入token的向量表示。

  1. 不建议直接使用ERNIE的预训练词向量计算余弦相似度。对于语义匹配任务,可以参考PaddleHub文本语义匹配教程:https://aistudio.baidu.com/aistudio/projectdetail/705526。示例:https://github.com/PaddlePaddle/PaddleHub/tree/release/v1.8/demo/pointwise_text_matching
ngynwnxp

ngynwnxp2#

你好!PaddleHub ERNIE module支持取预训练embeddding,参考 get_embedding 接口: https://www.paddlepaddle.org.cn/hubdetail?name=ERNIE&en_category=SemanticModel
其中ERNIE module的输出 pooled_output 表示句子向量表示, sequence_output 表示每个输入token的向量表示

  1. 不建议直接使用ERNIE 的预训练词向量计算余弦相似度。关于语义匹配任务,可以参考PaddleHub 文本语义匹配教程: https://aistudio.baidu.com/aistudio/projectdetail/705526
    demo: https://github.com/PaddlePaddle/PaddleHub/tree/release/v1.8/demo/pointwise_text_matching
    @Steffy-zxf 你好,再问下:
    1)为什么不建议直接使用ERNIE的预训练向量计算余弦相似度;
  1. 关于上述发的语义匹配任务适合短文本的相似度计算吗?
jyztefdp

jyztefdp3#

\n\n你好!Transformer类预训练向量包含的是通用的语义信息,其在下游任务数据集上稍稍微调下,可以取得更好的效果。上述的语义匹配任务是作为分类任务来做。如果想要计算短文本的语义相似度可以使用 word2vec_skipgramtencent_ailab_chinese_embedding_small 等module,取word embedding计算cos_sim,参考文档: https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.8/docs/tutorial/sentence_sim.md

相关问题