Environment:
- jieba v0.39
Code:
import jieba
jieba.add_word("现代汉语文本切分与词性标注规范V1.0");
seg_list = jieba.cut("北大计算语言学研究所从 1992 年开始进行汉语语料库的多级加工研究。第一步是对原\n" +
"始语料进行切分和词性标注。1994 年制订了《现代汉语文本切分与词性标注规范V1.0》。")
print(','.join(seg_list))
output:
北大,计算,语言学,研究所,从, ,1992, ,年,开始,进行,汉语,语料库,的,多级,加工,研究,。,第一步,是,对,原,
,始,语料,进行,切分,和,词性,标注,。,1994, ,年,制订,了,《,现代汉语,文本,切分,与,词性,标注,规范,V,1.0,》,。
2条答案
按热度按时间enxuqcxy1#
根据个人需要修改jieba包init.py中几个正则表达式,使其支持数字特殊字符。re_han_default = re.compile(“(.+)”, re.U)
yqyhoc1h2#
[北大/j 计算/v 语言学/n 研究所/n]/nt 从/p 1992年/t 开始/v 进行/v 汉语/nz 语料库/n 的/u 多/m 级/q 加工/v 研究/v 。/w 第一/m 步/q 是/v 对/p 原始/a 语/Ng 料/v 进行/v 切分/vn 和/c 词性/n 标注/v 。/w 1994年/t 制订/v 了/u 《/w 现代汉语文本切分与词性标注规范V1.0/nz 》/w 。/w