jieba 自定义词包含字母与数字导致新词不生效

vs3odd8k  于 6个月前  发布在  其他
关注(0)|答案(2)|浏览(50)

Environment:

  • jieba v0.39

Code:

import jieba
jieba.add_word("现代汉语文本切分与词性标注规范V1.0");
seg_list = jieba.cut("北大计算语言学研究所从 1992 年开始进行汉语语料库的多级加工研究。第一步是对原\n" +
                "始语料进行切分和词性标注。1994 年制订了《现代汉语文本切分与词性标注规范V1.0》。")
print(','.join(seg_list))

output:

北大,计算,语言学,研究所,从, ,1992, ,年,开始,进行,汉语,语料库,的,多级,加工,研究,。,第一步,是,对,原,
,始,语料,进行,切分,和,词性,标注,。,1994, ,年,制订,了,《,现代汉语,文本,切分,与,词性,标注,规范,V,1.0,》,。
enxuqcxy

enxuqcxy1#

根据个人需要修改jieba包init.py中几个正则表达式,使其支持数字特殊字符。re_han_default = re.compile(“(.+)”, re.U)

yqyhoc1h

yqyhoc1h2#

from pyhanlp import *

segment = HanLP.newSegment('感知机')
CustomDictionary.insert('现代汉语文本切分与词性标注规范V1.0')
print(segment.analyze("北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。第一步是对原" +
                      "始语料进行切分和词性标注。1994年制订了《现代汉语文本切分与词性标注规范V1.0》。"))

[北大/j 计算/v 语言学/n 研究所/n]/nt 从/p 1992年/t 开始/v 进行/v 汉语/nz 语料库/n 的/u 多/m 级/q 加工/v 研究/v 。/w 第一/m 步/q 是/v 对/p 原始/a 语/Ng 料/v 进行/v 切分/vn 和/c 词性/n 标注/v 。/w 1994年/t 制订/v 了/u 《/w 现代汉语文本切分与词性标注规范V1.0/nz 》/w 。/w

相关问题