我有两个关于Lucene演示的主要问题。Lucene演示在修改之前是否使用了停用词?词干分析呢?如果是,它使用什么词干分析器?
u7up0aaq1#
您指的是哪个演示?如果是这个问题,那么答案是:(a)停止词:不,它没有。它使用StandardAnalyzer(),当创建时没有参数,它不使用停止词(但是如果你选择提供一些参数,它可以)。(b)词干处理:不,它不使用词干处理--在演示代码中没有涉及词干处理类,因为标准分析器没有使用词干处理。看一下StandardAnalyzer的javadoc,您将看到以下内容:使用LowerCaseFilter和StopFilter过滤StandardTokenizer,使用可配置的停用字词列表。因此,这将告诉您如何分析输入文档:
StandardAnalyzer()
StandardAnalyzer
StanadardTokenizer
LowerCaseFilter
StopFilter
1条答案
按热度按时间u7up0aaq1#
您指的是哪个演示?
如果是这个问题,那么答案是:
(a)停止词:不,它没有。它使用
StandardAnalyzer()
,当创建时没有参数,它不使用停止词(但是如果你选择提供一些参数,它可以)。(b)词干处理:不,它不使用词干处理--在演示代码中没有涉及词干处理类,因为标准分析器没有使用词干处理。
看一下
StandardAnalyzer
的javadoc,您将看到以下内容:使用LowerCaseFilter和StopFilter过滤StandardTokenizer,使用可配置的停用字词列表。
因此,这将告诉您如何分析输入文档:
StanadardTokenizer
,您可以阅读有关here的规则。LowerCaseFilter
-它的工作原理与您预期的一样。StopFilter
-您可能已提供或未提供任何停用词。