jieba 如何从零开始建立一个中文词典

bsxbgnwa  于 4个月前  发布在  其他
关注(0)|答案(3)|浏览(65)

在自己有raw语料的情况下, 有一组单词(没有词频, 主要是想通过获得这些单词的词频去做jieba分词), 如何统计词频会比较合理有效呢?

pnwntuvh

pnwntuvh1#

人工标注或者用其他准确度高的分词软件分好。 然后,统计一下。

new9mtju

new9mtju2#

链接文章里的新词发现算法也许对你有帮助。 http://www.matrix67.com/blog/archives/5044

2014-12-18 9:53 GMT+08:00 Sun Junyi notifications@github.com :
人工标注或者用其他准确度高的分词软件分好。 然后,统计一下。


Reply to this email directly or view it on GitHub
#209 (comment).

dm7nw8vv

dm7nw8vv3#

@fxsjy 能不能公开建立词库、finalseg 和 posseg 概率模型的源码?这对于建立自定义模型很有帮助。

相关问题