jieba 自定义主词库,关闭了HMM,还是会分出英文。无论长短

44u64gxh  于 5个月前  发布在  其他
关注(0)|答案(1)|浏览(83)

代码如下:
string="这是一个test的行。和一些无意义的dm、jksajdfl"
jieba.set_dictionary('dict.txt.big')#自定义词库
res=jieba.lcut(string,HMM=False)
print(res)
['test', 'dm', 'jksajdfl']
自定义的dict里面只有一个测试的汉字词。

voj3qocg

voj3qocg1#

自己解决了。
init.py 破坏掉re_eng = re.compile('[a-zA-Z0-9]', re.U) 就可以了。。。。
比如re_eng = re.compile('aaaaaaaa', re.U)

相关问题