@gumblex 你好,想请教下,为什么要把前缀也存起来呢,不在字典的词语前缀,词频永远是0吧?
可以参考 https://www.cnblogs.com/zhbzz2007/p/6084196.html
是这样的如果将例如对 「去北京大学玩」分词。
分词是构建一个 DAG 图。会循环整个句子中的每一个字,并且从当前的字开始往下遍历,看是否可以构成新的词。例如从 「北」 开始,它自己是在字典中的 OK, 「北京」OK。「北京大」,如果此时没有将 「北京大」放入字典中,那么就不会遍历到 「北京大学」整个词了。
这里是用了 set 来代替前坠树。
但问题是,如果用前缀树,就可以继续在 北京大 子节点去查找,而前缀数组是不是要整体便利一遍?
- Originally posted by @shaheming in #187 (comment)*
1条答案
按热度按时间nnvyjq4y1#
现在的实现是把前缀和词语放在同一个 dict 里,dict 里找东西平均是 O(1) 的,不用全部遍历。