【Lucene3.6.2入门系列】第04节_中文分词器

x33g5p2x  于2021-12-24 转载在 其他  
字(6.7k)|赞(0)|评价(0)|浏览(455)

完整版见 https://jadyer.github.io/2013/08/18/lucene-chinese-analyzer/

  1. package com.jadyer.lucene;
  2. import java.io.IOException;
  3. import java.io.StringReader;
  4. import org.apache.lucene.analysis.Analyzer;
  5. import org.apache.lucene.analysis.SimpleAnalyzer;
  6. import org.apache.lucene.analysis.StopAnalyzer;
  7. import org.apache.lucene.analysis.TokenStream;
  8. import org.apache.lucene.analysis.WhitespaceAnalyzer;
  9. import org.apache.lucene.analysis.standard.StandardAnalyzer;
  10. import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
  11. import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
  12. import org.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute;
  13. import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
  14. import org.apache.lucene.util.Version;
  15. import com.chenlb.mmseg4j.analysis.ComplexAnalyzer;
  16. import com.chenlb.mmseg4j.analysis.MMSegAnalyzer;
  17. /**
  18. * 【Lucene3.6.2入门系列】第04节_中文分词器
  19. * @see -----------------------------------------------------------------------------------------------------------------------
  20. * @see Lucene3.5推荐的四大分词器:SimpleAnalyzer,StopAnalyzer,WhitespaceAnalyzer,StandardAnalyzer
  21. * @see 这四大分词器有一个共同的抽象父类,此类有个方法public final TokenStream tokenStream(),即分词的一个流
  22. * @see 假设有这样的文本"how are you thank you",实际它是以一个java.io.Reader传进分词器中
  23. * @see Lucene分词器处理完毕后,会把整个分词转换为TokenStream,这个TokenStream中就保存所有的分词信息
  24. * @see TokenStream有两个实现类,分别为Tokenizer和TokenFilter
  25. * @see Tokenizer---->用于将一组数据划分为独立的语汇单元(即一个一个的单词)
  26. * @see TokenFilter-->过滤语汇单元
  27. * @see -----------------------------------------------------------------------------------------------------------------------
  28. * @see 分词流程
  29. * @see 1)将一组数据流java.io.Reader交给Tokenizer,由其将数据转换为一个个的语汇单元
  30. * @see 2)通过大量的TokenFilter对已经分好词的数据进行过滤操作,最后产生TokenStream
  31. * @see 3)通过TokenStream完成索引的存储
  32. * @see -----------------------------------------------------------------------------------------------------------------------
  33. * @see Tokenizer的一些子类
  34. * @see KeywordTokenizer-----不分词,传什么就索引什么
  35. * @see StandardTokenizer----标准分词,它有一些较智能的分词操作,诸如将'jadyer@yeah.net'中的'yeah.net'当作一个分词流
  36. * @see CharTokenizer--------针对字符进行控制的,它还有两个子类WhitespaceTokenizer和LetterTokenizer
  37. * @see WhitespaceTokenizer--使用空格进行分词,诸如将'Thank you,I am jadyer'会被分为4个词
  38. * @see LetterTokenizer------基于文本单词的分词,它会根据标点符号来分词,诸如将'Thank you,I am jadyer'会被分为5个词
  39. * @see LowerCaseTokenizer---它是LetterTokenizer的子类,它会将数据转为小写并分词
  40. * @see -----------------------------------------------------------------------------------------------------------------------
  41. * @see TokenFilter的一些子类
  42. * @see StopFilter--------它会停用一些语汇单元
  43. * @see LowerCaseFilter---将数据转换为小写
  44. * @see StandardFilter----对标准输出流做一些控制
  45. * @see PorterStemFilter--还原一些数据,比如将coming还原为come,将countries还原为country
  46. * @see -----------------------------------------------------------------------------------------------------------------------
  47. * @see eg:'how are you thank you'会被分词为'how','are','you','thank','you'合计5个语汇单元
  48. * @see 那么应该保存什么东西,才能使以后在需要还原数据时保证正确的还原呢???其实主要保存三个东西,如下所示
  49. * @see CharTermAttribute(Lucene3.5以前叫TermAttribute),OffsetAttribute,PositionIncrementAttribute
  50. * @see 1)CharTermAttribute-----------保存相应的词汇,这里保存的就是'how','are','you','thank','you'
  51. * @see 2)OffsetAttribute-------------保存各词汇之间的偏移量(大致理解为顺序),比如'how'的首尾字母偏移量为0和3,'are'为4和7,'thank'为12和17
  52. * @see 3)PositionIncrementAttribute--保存词与词之间的位置增量,比如'how'和'are'增量为1,'are'和'you'之间的也是1,'you'和'thank'的也是1
  53. * @see 但假设'are'是停用词(StopFilter的效果),那么'how'和'you'之间的位置增量就变成了2
  54. * @see 当我们查找某一个元素时,Lucene会先通过位置增量来取这个元素,但如果两个词的位置增量相同,会发生什么情况呢
  55. * @see 假设还有一个单词'this',它的位置增量和'how'是相同的,那么当我们在界面中搜索'this'时
  56. * @see 也会搜到'how are you thank you',这样就可以有效的做同义词了,目前非常流行的一个叫做WordNet的东西,就可以做同义词的搜索
  57. * @see -----------------------------------------------------------------------------------------------------------------------
  58. * @see 中文分词器
  59. * @see Lucene默认提供的众多分词器完全不适用中文
  60. * @see 1)Paoding--庖丁解牛分词器,官网为http://code.google.com/p/paoding(貌似已托管在http://git.oschina.net/zhzhenqin/paoding-analysis)
  61. * @see 2)MMSeg4j--据说它使用的是搜狗的词库,官网为https://code.google.com/p/mmseg4j(另外还有一个https://code.google.com/p/jcseg)
  62. * @ses 3)IK-------https://code.google.com/p/ik-analyzer/
  63. * @see -----------------------------------------------------------------------------------------------------------------------
  64. * @see MMSeg4j的使用
  65. * @see 1)下载mmseg4j-1.8.5.zip并引入mmseg4j-all-1.8.5-with-dic.jar
  66. * @see 2)在需要指定分词器的位置编写new MMSegAnalyzer()即可
  67. * @see 注1)由于使用的mmseg4j-all-1.8.5-with-dic.jar中已自带了词典,故直接new MMSegAnalyzer()即可
  68. * @see 注2)若引入的是mmseg4j-all-1.8.5.jar,则应指明词典目录,如new MMSegAnalyzer("D:\\Develop\\mmseg4j-1.8.5\\data")
  69. * @see 但若非要使用new MMSegAnalyzer(),则要将mmseg4j-1.8.5.zip自带的data目录拷入classpath下即可
  70. * @see 总结:直接引入mmseg4j-all-1.8.5-with-dic.jar就行了
  71. * @see -----------------------------------------------------------------------------------------------------------------------
  72. * @create Aug 2, 2013 5:30:45 PM
  73. * @author 玄玉<http://blog.csdn.net/jadyer>
  74. */
  75. public class HelloChineseAnalyzer {
  76. /**
  77. * 查看分词信息
  78. * @see TokenStream还有两个属性,分别为FlagsAttribute和PayloadAttribute,都是开发时用的
  79. * @see FlagsAttribute----标注位属性
  80. * @see PayloadAttribute--做负载的属性,用来检测是否已超过负载,超过则可以决定是否停止搜索等等
  81. * @param txt 待分词的字符串
  82. * @param analyzer 所使用的分词器
  83. * @param displayAll 是否显示所有的分词信息
  84. */
  85. public static void displayTokenInfo(String txt, Analyzer analyzer, boolean displayAll){
  86. //第一个参数没有任何意义,可以随便传一个值,它只是为了显示分词
  87. //这里就是使用指定的分词器将'txt'分词,分词后会产生一个TokenStream(可将分词后的每个单词理解为一个Token)
  88. TokenStream stream = analyzer.tokenStream("此参数无意义", new StringReader(txt));
  89. //用于查看每一个语汇单元的信息,即分词的每一个元素
  90. //这里创建的属性会被添加到TokenStream流中,并随着TokenStream而增加(此属性就是用来装载每个Token的,即分词后的每个单词)
  91. //当调用TokenStream.incrementToken()时,就会指向到这个单词流中的第一个单词,即此属性代表的就是分词后的第一个单词
  92. //可以形象的理解成一只碗,用来盛放TokenStream中每个单词的碗,每调用一次incrementToken()后,这个碗就会盛放流中的下一个单词
  93. CharTermAttribute cta = stream.addAttribute(CharTermAttribute.class);
  94. //用于查看位置增量(指的是语汇单元之间的距离,可理解为元素与元素之间的空格,即间隔的单元数)
  95. PositionIncrementAttribute pia = stream.addAttribute(PositionIncrementAttribute.class);
  96. //用于查看每个语汇单元的偏移量
  97. OffsetAttribute oa = stream.addAttribute(OffsetAttribute.class);
  98. //用于查看使用的分词器的类型信息
  99. TypeAttribute ta = stream.addAttribute(TypeAttribute.class);
  100. try {
  101. if(displayAll){
  102. //等价于while(stream.incrementToken())
  103. for(; stream.incrementToken() ;){
  104. System.out.println(ta.type() + " " + pia.getPositionIncrement() + " ["+oa.startOffset()+"-"+oa.endOffset()+"] ["+cta+"]");
  105. }
  106. }else{
  107. System.out.println();
  108. while(stream.incrementToken()){
  109. System.out.print("[" + cta + "]");
  110. }
  111. }
  112. } catch (IOException e) {
  113. e.printStackTrace();
  114. }
  115. }
  116. /**
  117. * 测试一下中文分词的效果
  118. * @author 玄玉<http://blog.csdn.net/jadyer>
  119. */
  120. public static void main(String[] args) {
  121. String txt = "我来自中国黑龙江省哈尔滨市巴彦县兴隆镇";
  122. displayTokenInfo(txt, new StandardAnalyzer(Version.LUCENE_36), false);
  123. displayTokenInfo(txt, new StopAnalyzer(Version.LUCENE_36), false);
  124. displayTokenInfo(txt, new SimpleAnalyzer(Version.LUCENE_36), false);
  125. displayTokenInfo(txt, new WhitespaceAnalyzer(Version.LUCENE_36), false);
  126. displayTokenInfo(txt, new MMSegAnalyzer(), false); //等价于new com.chenlb.mmseg4j.analysis.MaxWordAnalyzer()
  127. displayTokenInfo(txt, new com.chenlb.mmseg4j.analysis.SimpleAnalyzer(), false);
  128. displayTokenInfo(txt, new ComplexAnalyzer(), false);
  129. }
  130. }

相关文章