jieba 关于字典

oxcyiej7  于 2022-10-26  发布在  其他
关注(0)|答案(2)|浏览(259)

首先非常感谢你开源了一个很好用的工具。

最近我在我的网站上开始使用结巴分词来提取我们网站上的每篇内容的 3 个标签,大部分时候效果很好,但是部分主题里出现了一些奇怪的结果(主题正文右下),比如:

http://www.v2ex.com/t/97153 (上换)
http://www.v2ex.com/t/97151 (想省)
http://www.v2ex.com/t/97140 (就够)

所以我在想,如果我把我们网站上的所有内容导出,是否有可能经由你的工具生成一个效果更好的 dict.txt?

谢谢。

von4xj4u

von4xj4u1#

jieba的extract_tags使用的分词模式是默认模式,即带有HMM新词发现的模式
感觉其实这样似乎有点不妥,在生产实践中,还是更偏向于信赖词典,因为新词发现容易产生垃圾词(线上如果出现垃圾词往往效果令人无法容忍),相对比起来,新词没有被发现反而可以让人接受(从而再通过改善词典慢慢优化)。

所以建议楼主还是使用非默认模式的jieba.cut 应该会理想一些。

yhived7q

yhived7q2#

@livid ,你好。

jieba的关键词提取功能比较简陋,是基于最简单的tf/idf排序方式。 对于idf.txt中没有的词汇,它的默认值是取得idf.txt中所有词的idf值的median,这一点搞的比较随意。 也许可以通过降低这个默认值来fix你说的这几个case。

https://github.com/fxsjy/jieba/blob/master/jieba/analyse/init.py#L33

相关问题