jieba 用户自定义字典词频受默认词典的影响权重

deikduxw  于 2022-10-26  发布在  其他
关注(0)|答案(4)|浏览(269)

请问:
结巴分词中用户自定义的字典受默认字典词频的影响是和单个词频的值有关么,例如我自定义词典中增加一个词“汉武帝”,词频为30 ,而默认词典中“汉”和“武帝”的词频都是100,那是不是说我这个词一定会被分成默认字典“汉/武帝”,而不是我自定义词表中的“汉武帝”,如果是这样的话,我后期自定义的字典如果批量加入,我怎么定词频的值合适,还是我需要对一类词进入默认词表中先检查一下,在定义自己的字典,不知道有没有什么好的办法,望回复,感谢!!

yshpjwxd

yshpjwxd1#

我也有这个问题,请问您解决了吗?

vohkndzv

vohkndzv2#

我解决了,你在用户自定义词典中不要规定词频,如下

体外药物释放

增效剂
航道整治
肌腱膜纤维肉瘤癌基因同系物A

这样就会自动生成一个合适的词频,从而可以把这个词分出来

9njqaruj

9njqaruj3#

@我也碰到了类似的问题,使用楼上的@grandmoi 的方法不写词频和词性会报下面这个错误
IndexError: list index out of range

不写词性,词频写多高都分不出词

难不成真的要自己一个个加到字典里……

6vl6ewon

6vl6ewon4#

@grandmoi 我也有这个问题。我的自定义词典中定义了‘国债’,没有设置词频。然后输入‘中国债’,想分出来‘中’、‘国债’。但是实际输出还是‘中国’、‘债’

相关问题