solr使用数据处理程序导入后不返回所有文档

cu6pst1q 于 2021-06-15 发布在 Mysql

关注(0)|答案(1)|浏览(482)

我安装了solr8.7.0，并通过mysqli连接使用数据处理程序导入器插件。
我宣布了四个实体：

<dataConfig>
  <dataSource type="JdbcDataSource"
              driver="com.mysql.jdbc.Driver"
              url="jdbc:mysql://localhost:3306/hmsscot_bassculture"
              user="myuser"
              password="mypw"/>
  <document>
    <entity name="author" query="select id,type,firstname,surname,biographical_info,extrainfo from bassculture_author">
      <field column="id" name="id"/>
      <field column="type" name="type"/>
      <field column="firstname" name="firstname"/>
      <field column="surname" name="surname"/>
      <field column="biographical_info" name="biographical_info"/>
      <field column="extrainfo" name="extrainfo"/>
    </entity>

    <entity name="source" query="select id,type,short_title,full_title,publisher,author_id,orientation,variants from bassculture_source">
      <field column="id" name="id"/>
      <field column="type" name="type"/>
      <field column="short_title" name="short_title"/>
      <field column="full_title" name="full_title"/>
      <field column="publisher" name="publisher"/>
      <field column="author_id" name="author_id"/>
      <entity name="author" query="SELECT s.*, CONCAT(ba.firstname, ' ', ba.surname) AS author FROM bassculture_source s, bassculture_author ba WHERE s.id=${source.id} AND s.author_id = ba.id;">
        <field column="author" name="author"/>
      </entity>
      <field column="description" name="description"/>
      <field column="orientation" name="orientation"/>
      <field column="variants" name="variants"/>
    </entity>

    <entity name="copy" query="select id,type,folder,source_id,item_notes,seller,library,shelfmark,pagination,dimensions from bassculture_item">
      <field column="id" name="id"/>
      <field column="type" name="type"/>
      <field column="folder" name="folder"/>
      <field column="source_id" name="source_id"/>
      <entity name="source_title" query="select id,short_title from bassculture_source where id=${copy.source_id}">
        <field column="short_title" name="source_title"/>
      </entity>
      <entity name="source_author" query="SELECT bt.*, CONCAT(ba.firstname, ' ', ba.surname) AS source_author FROM bassculture_tune bt, bassculture_item c, bassculture_source s, bassculture_author ba WHERE c.id=${copy.id} AND c.source_id = s.id AND s.author_id = ba.id;">
        <field column="source_author" name="source_author"/>
      </entity>
      <field column="item_notes" name="item_notes"/>
      <field column="seller" name="seller"/>
      <field column="library" name="library"/>
      <field column="shelfmark" name="shelfmark"/>
      <field column="paginations" name="pagination"/>
      <field column="dimensions" name="dimension"/>
    </entity>

    <entity name="tune" query="select id,type,name,start_page,alternate_spellings,item_id from bassculture_tune">
      <field column="id" name="id"/>
      <field column="type" name="type"/>
      <field column="name" name="name"/>
      <entity name="source_title" query="select s.* FROM bassculture_source s, bassculture_item c, bassculture_tune bt where bt.id=${tune.id} AND c.source_id = s.id AND bt.item_id = c.id">
        <field column="short_title" name="source_title"/>
      </entity>
      <entity name="tune_author" query="SELECT bt.*, CONCAT(ba.firstname, ' ', ba.surname, ' ', ba.extrainfo) AS tune_author FROM bassculture_tune bt, bassculture_item c, bassculture_source s, bassculture_author ba WHERE bt.id=${tune.id} AND bt.item_id = c.id AND c.source_id = s.id AND s.author_id = ba.id;">
        <field column="tune_author" name="tune_author" />
      </entity>
      <field column="start_page" name="start_page"/>
      <field column="alternate_spellings" name="alternate_spellings"/>
      <field column="item_id" name="item_id"/>
    </entity>

  </document>
</dataConfig>

现在，我正在经历一些对我来说毫无意义的事情。如果我运行数据导入程序时将“实体”下拉列表留空（即导入所有实体）：

我得到：
索引已完成。增加/更新：2357份文件。已删除0个文档(持续时间：13s）
这是正确的文档数（作者+来源+副本+曲调）。然而，当我查询数据库时，我只得到1938个文档：

"responseHeader":{
    "status":0,
    "QTime":103,
    "params":{
      "q":"*:*",
      "_":"1609335106436"}},
  "response":{"numFound":1938,"start":0,"numFoundExact":true,"docs":[
      {
    [...]

这只是tunes（上面配置文件中的最后一个实体）。我在 Jmeter 板上也看到了这一点：

另一方面，如果我逐个选择实体（如作者等）：

插件正确导入author、tune和copy实体（每次。查询反映了导入的文档）。但是，当我到达第四个实体（tune）时，索引显然“忘记”了前三个实体——尽管在运行它之后，插件报告“documents deleted:0”和。查询返回到仅找到1938个文档（即，仅找到曲调）。
日志中没有错误消息。我错过了什么？
部分解决方案
我设法给id添加了一个前缀，以便区分四个不同的数据，这样唯一的id就不会被重写，例如：

SELECT name,start_page,alternate_spellings,item_id, CONCAT('tune_', id) AS id, 'tune' as type FROM bassculture_tune;

不过，我需要当前tune的数据库id（不带前缀），在本例中，用于以后的比较，例如：

<entity name="tune_author" query="SELECT bt.*, CONCAT(ba.firstname, ' ', ba.surname, ' ', ba.extrainfo) AS tune_author FROM bassculture_tune bt, bassculture_item c, bassculture_source s, bassculture_author ba WHERE bt.id=${tune.id} AND bt.item_id = c.id AND c.source_id = s.id AND s.author_id = ba.id;">
    <field column="tune_author" name="tune_author" />
  </entity>

因为${tune.id}现在有了一个前缀，所以整个查询不再满足我的需要。有没有办法在本地去掉前缀？
编辑2
查询

<entity name="tune_author" query="select s.* FROM bassculture_source s, bassculture_item c, bassculture_tune bt WHERE bt.id=REPLACE(${tune.id}, 'tune_', '') AND c.source_id = s.id AND bt.item_id = c.id;">

在solr上导入数据时引发错误（无法执行查询）。
这是solr日志中的错误：

Caused by: java.sql.SQLSyntaxErrorException: You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'SELECT REPLACE(tune_1, 'tune_', ''), AND c.source_id = s.id AND bt.item_id = c.i' at line 1

ps公司
像这样的

select item_id FROM bassculture_tune bt WHERE bt.id= (SELECT REPLACE('tune_1', 'tune_', ''));

在mysql控制台上工作正常。
引入变量
我现在用一个变量试试运气：

<entity name="this_tune_id" query="SET @this_tune_id = REPLACE('${tune.id}','tune_','');">
        </entity>
      <entity name="source_title" query="select s.* FROM bassculture_source s, bassculture_item c, bassculture_tune bt WHERE c.source_id = s.id AND bt.item_id = c.id AND bt.id = ${this_tune_id};">
        <field column="short_title" name="source_title"/>
      </entity>

这给了我一个机会

org.apache.solr.handler.dataimport.DataImportHandlerException: java.lang.ArrayIndexOutOfBoundsException: Index -1 out of bounds for length 1

错误。
最终解决方案
我将数据库id存储为this \u tune \u id，solr id（带有前缀）存储为id，这样我就可以在solr中存储前缀id的同时，使用this \u tune \u id进行查询：

<entity name="tune" query="SELECT name,start_page,alternate_spellings,item_id, id AS this_tune_id, CONCAT('tune_', id) AS id, 'tune' as type FROM bassculture_tune;">

  <field column="name" name="name"/>

  <entity name="source_title" query="select s.* FROM bassculture_source s, bassculture_item c, bassculture_tune bt WHERE c.source_id = s.id AND bt.item_id = c.id AND bt.id = ${tune.this_tune_id};">

mysql solr dataimporthandler

来源：https://stackoverflow.com/questions/65507880/solr-not-returning-all-documents-after-importing-with-the-data-handler

1条答案

按热度按时间

brgchamk1#

包含导入数据的屏幕截图显示了原因： maxDocs 显示已导入2357个文档；但有419个被标记为已删除。您的唯一键字段（通常 id )在导入的文档之间存在重叠，导致较新的文档覆盖较旧的文档。
419个文档已被稍后导入的文档覆盖，因为ID重叠。
您可以通过在ID前面加实体类型来解决这个问题（不需要ID是数字）-最简单的方法是在sql中加前缀：

SELECT CONCAT('tune_', id) AS id, FROM ..
SELECT CONCAT('author_', id) AS id, .. FROM ..
... repeating for each source ..

这样作者的身份证就会 author_1 不会覆盖 tune_1 否则的话，两个人都会 1 作为他们的身份证。

赞(0）回复(0）举报 2021-06-16

我来回答

solr使用数据处理程序导入后不返回所有文档

1条答案

相关问题

热门标签

最新问答