将标记替换模式锚定到标记的末尾

xwbd5t1u  于 2021-06-14  发布在  ElasticSearch
关注(0)|答案(1)|浏览(357)

根据文件,这是不可能的
正则表达式不能锚定到标记的开头或结尾
不过,它似乎对我有用

GET /_analyze
{
  "tokenizer": "whitespace",
  "filter": [
    {
      "type": "pattern_replace",
      "pattern": "(dog)$",
      "replacement": "hot$1"
    }
  ],
  "text": "dog dogs"
}

退货

{
  "tokens" : [
    {
      "token" : "hotdog",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "dogs",
      "start_offset" : 4,
      "end_offset" : 8,
      "type" : "word",
      "position" : 1
    }
  ]
}

请注意,模式被锚定到令牌的结尾,并且“dogs”不会被替换,因为它不会以“dog”结尾。
所以我的问题是:我是否遗漏了什么,或者我是否可以安全地使用它(而文档只是错了)?

sc4hvdpw

sc4hvdpw1#

看起来这是错误的文档,而elasticsearch bug对此,已经查看了elastic代码,并且没有特别处理令牌的开头或结尾。
请参考此令牌过滤器使用的es代码,它调用lucene令牌过滤器,在elastic和lucene代码级别都没有特殊处理。

相关问题