在自己有raw语料的情况下, 有一组单词(没有词频, 主要是想通过获得这些单词的词频去做jieba分词), 如何统计词频会比较合理有效呢?
pnwntuvh1#
人工标注或者用其他准确度高的分词软件分好。 然后,统计一下。
new9mtju2#
链接文章里的新词发现算法也许对你有帮助。 http://www.matrix67.com/blog/archives/5044
2014-12-18 9:53 GMT+08:00 Sun Junyi notifications@github.com :人工标注或者用其他准确度高的分词软件分好。 然后,统计一下。
—Reply to this email directly or view it on GitHub#209 (comment).
dm7nw8vv3#
@fxsjy 能不能公开建立词库、finalseg 和 posseg 概率模型的源码?这对于建立自定义模型很有帮助。
3条答案
按热度按时间pnwntuvh1#
人工标注或者用其他准确度高的分词软件分好。 然后,统计一下。
new9mtju2#
链接文章里的新词发现算法也许对你有帮助。 http://www.matrix67.com/blog/archives/5044
2014-12-18 9:53 GMT+08:00 Sun Junyi notifications@github.com :
人工标注或者用其他准确度高的分词软件分好。 然后,统计一下。
—
Reply to this email directly or view it on GitHub
#209 (comment).
dm7nw8vv3#
@fxsjy 能不能公开建立词库、finalseg 和 posseg 概率模型的源码?这对于建立自定义模型很有帮助。