类似谷歌的autosuggest/typeahead(建议关键词/短语)和solr

fzsnzjdm 于 2021-10-10 发布在 Java

关注(0)|答案(1)|浏览(415)

要求

我需要一个类似谷歌的搜索框中的建议。solr已经是一个给定的。结果应该如下所示：
搜索词alex
结果alexander behling alexander某人。。。
搜索术语cab
结果电缆、高压电缆、电缆切割机

目的是将短语作为建议，而不是整个字段或摘录。查询应不区分大小写，alex应具有与alex相同的结果，但searchresult（建议）必须具有原始大小写。
建议必须按类别过滤，我们在一个索引中有多个域的结果，结果应按包含域的特定字段过滤。contextfield仅适用于“当前由documentdictionaryfactory支持的analyzinginfixlookupfactory和blendedinfixlookupfactory支持此功能。”

我尝试了三种方法

1.方法：freetextlookupfactory

config (no special schema changes): 
     <searchComponent name="suggest" class="solr.SuggestComponent">
        <lst name="suggester">
          <str name="name">default</str>
          <str name="lookupImpl">FreeTextLookupFactory</str> 
          <str name="dictionaryImpl">DocumentDictionaryFactory</str>
          <str name="field">content</str>
          <str name="ngrams">3</str>
          <str name="separator"> </str>
          <str name="suggestFreeTextAnalyzerFieldType">text_general</str>
        </lst>
    </searchComponent>

    <requestHandler name="/suggest" class="solr.SearchHandler" startup="lazy" >
      <lst name="defaults">
        <str name="suggest">true</str>
        <str name="suggest.count">10</str>
        <str name="suggest.dictionary">default</str>        
        <str name="echoParams">explicit</str>
      </lst>
      <arr name="components">
         <str>suggest</str>
      </arr>
    </requestHandler>

这很有效，但只提供了一个单词。
搜索词alex
结果 Alexandria ， Alexandria 。。。
优点是索引速度非常高。我尝试将它与一个shinglefilter结合起来，但没有成功，可能是因为shinglefilter已经是freetextlookupfactory的一部分了。由于存在freetextlookupfactory，因此不支持类别。

2.方法：将Infixlookupffactory与自定义字段混合

schema:
<field name="suggest_field" type="text_suggest" indexed="true" stored="true" multiValued="true"/>
<field name="site" type="string" stored="true" indexed="true"/>
<copyField source="content" dest="suggest_field"/>

    <fieldType name="text_suggest" class="solr.TextField" positionIncrementGap="100">
            <analyzer type="index">
                <tokenizer class="solr.StandardTokenizerFactory"/>
                <!--filter class="solr.LowerCaseFilterFactory"/-->
                <filter class="solr.TrimFilterFactory"/>
                <filter class="solr.ShingleFilterFactory" 
                    minShingleSize="2"
                    maxShingleSize="4"
                    outputUnigrams="true"
                    outputUnigramsIfNoShingles="true"/>
            </analyzer>
            <analyzer type="query">
                <tokenizer class="solr.KeywordTokenizerFactory"/>
                <filter class="solr.LowerCaseFilterFactory"/>
                <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
           </analyzer>
    </fieldType>

config:
<searchComponent name="suggest" class="solr.SuggestComponent">
   <lst name="suggester">
      <str name="name">default</str>
      <str name="lookupImpl">BlendedInfixLookupFactory</str>
      <str name="blenderType">position_linear</str>
      <str name="dictionaryimpl">DocumentDictionaryFactory</str>
      <str name="field">suggest_field</str>
      <str name="weightField">weight</str>
      <str name="suggestAnalyzerFieldType">text_suggest</str>
      <str name="queryAnalyzerFieldType">phrase_suggest</str>
      <str name="indexPath">suggest</str>
      <str name="buildOnStartup">false</str>
      <str name="buildOnCommit">false</str>
      <bool name="exactMatchFirst">true</bool>
      <str name="contextField">site</str>
   </lst> 
</searchComponent>

    <requestHandler name="/suggest" class="solr.SearchHandler" startup="lazy" >
      <lst name="defaults">
        <str name="suggest">true</str>
        <str name="suggest.count">10</str>
        <str name="suggest.dictionary">default</str>        
        <str name="echoParams">explicit</str>
      </lst>
      <arr name="components">
         <str>suggest</str>
      </arr>
    </requestHandler>FreeTextLookupFactory

第二种方法导致了一种对我来说很奇怪的行为：
亚历克斯还是亚历克斯
结果什么都没有。。。
搜索术语cab
结果电缆，电缆，电压电缆，电缆附件，电力电缆。。。
使用相同的字段，某些查询没有搜索结果。对于<10000个条目，索引速度已经超过12小时。由于混合了InfixlookupFactory和documentdictionaryfactory，因此应支持类别。但在查询中使用类别时。 http://localhost:8983/solr/magnolia/suggest?wt=json&suggest=true&suggest.q=nym&suggest.cfq=com 结果是空的。字段“site”在索引中多次包含值“com”。

3.使用高频字典Factory和自定义字段接近BlendedInfixlookupfFactory

schema:

 <field name="suggest_field" type="text_shingle" indexed="true" stored="true" multiValued="true"/>
...
<copyField source="_text_" dest="suggest_field"/>
...
    <fieldType name="text_shingle" class="solr.TextField" positionIncrementGap="100">
        <analyzer type="index">
           <charFilter class="solr.HTMLStripCharFilterFactory"/>
           <filter class="solr.TrimFilterFactory"/>
           <tokenizer class="solr.StandardTokenizerFactory"/>
           <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords_suggestions.txt" format="snowball" />
           <!--filter class="solr.EdgeNGramFilterFactory" minGramSize="4" maxGramSize="15"/-->
           <filter class="solr.ShingleFilterFactory" minShingleSize="2" maxShingleSize="4" outputUnigrams="false" outputUnigramsIfNoShingles="true" fillerToken=""/>
        </analyzer>
    </fieldType>
    <!-- marc johnen : used for autocomplete-->
    <fieldType name="text_suggest" class="solr.TextField" positionIncrementGap="100">
          <analyzer>
             <tokenizer class="solr.StandardTokenizerFactory"/>
             <filter class="solr.LowerCaseFilterFactory"/>
             <filter class="solr.TrimFilterFactory"/>
          </analyzer>
    </fieldType>

config:
    <searchComponent name="suggest" class="solr.SuggestComponent">
      <lst name="suggester">
        <str name="name">default</str>
        <str name="lookupImpl">BlendedInfixLookupFactory</str>
        <str name="dictionaryImpl">HighFrequencyDictionaryFactory</str>
        <str name="field">suggest_field</str>
        <str name="suggestAnalyzerFieldType">text_suggest</str>
        <str name="minPrefixChars">2</str>
        <str name="exactMatchFirst">true</str>
        <str name="buildOnStartup">false</str> 
        <str name="buildOnCommit">true</str>
        <str name="highlight">false</str>
      </lst>
    </searchComponent>

    <requestHandler name="/suggest" class="solr.SearchHandler" startup="lazy" >
      <lst name="defaults">
        <str name="suggest">true</str>
        <str name="suggest.count">10</str>
        <str name="suggest.dictionary">default</str>        
        <str name="echoParams">explicit</str>
      </lst>
      <arr name="components">
         <str>suggest</str>
      </arr>
    </requestHandler>

这种方法的结果非常好，基本上与规定的一样，除了一些重复的短语，因为有些关键字是重复的，因为它们的开头或结尾有空格，如“电源线”和“电源线”。除此之外还不错。
搜索词alex
结果alexander behling alexander某人。。。
搜索术语cab
结果电缆、高压电缆、电缆切割机
为<10000个文档编制索引需要一天的时间。但主要的问题是，由于高频字典，工厂类别不受支持。

质疑

我使用的查询如下所示：
http://localhost:8983/solr/magnolia/suggest?wt=json&suggest=true&suggest.q=cab
添加 <str name="contextField">site</str> 在类别和 &suggest.cfq=com 如果适用，请单击查询。

solr search autocomplete typeahead

来源：https://stackoverflow.com/questions/67811839/google-like-autosuggest-typeahead-suggesting-keywords-phrases-with-solr

1条答案

按热度按时间

我最终使用了freetextlookupfactory，为每种语言创建了一个单独的字段和建议。

赞(0）回复(0）举报 2021-10-10

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 5个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 5个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 5个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 5个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 5个月前