jieba可以做关键词分配吗?

rggaifut  于 5个月前  发布在  其他
关注(0)|答案(2)|浏览(42)

就是我有一个给定的关键词库,然后新来一篇文档,从词库里面找出几个词语作为这篇文档的关键词。

laximzn5

laximzn51#

目前我就在做类似的工作,效果挺不错。
你的这种情况,可以这么做。

  1. 先将文档按句子切分成多个句子,然后计算关键词库中的每个关键词在这篇文档中的句子集合;
  2. 接着计算关键词库中两两关键词的相似性(可以用Jaccard相似性度量),这样构成了一个相似性矩阵;
  3. 接着对相似性矩阵进行特征分解,然后对特征值进行归一化;
  4. 对归一化的特征值从大到小排序,并累计求和(cumsum),选取前<=0.8的特征值对应的关键词作为这篇文档的关键词

以上是一个基本的版本,直接用,效果一般。因此,需要考虑关键词的tf-idf。我是这么做的,在上面的步骤3时,对特征值进行tfidf加权。最后实验结果很好。

以上,楼主可以试试。

vsmadaxz

vsmadaxz2#

@MacQing 非常感谢,我试一下。

相关问题