我目前正在从google app engine上的搜索api迁移到独立的solr搜索服务。问题是,我有大量数据需要一次性索引(这是一次性操作),作为迁移的一部分,以便用户可以搜索可在旧搜索服务中搜索的数据。我考虑了几种方法:
从google云存储(gcs)下载json格式的数据,并使用solr post工具通过命令行对数据进行索引。这种方法的问题是,从gcs下载的数据文件看起来不友好/无结构,并且包含大量不必要的数据,这些数据应该从索引中排除(我只想索引部分数据,如用户名、电子邮件等)
有些与方法1相关,即首先从gcs下载数据,但使用索引处理程序上载数据。此方法使用数据导入处理程序,因为solr本机支持对xml、csv和json格式的结构化文档进行索引。但是,数据导入处理程序已弃用,将在9.0中删除。需要一个第三方插件。
我能想到的最后一种方法是查询数据存储,加载给定类型的所有实体,并以编程方式为它们编制索引。这种方法的一个问题是,通过对大量数据进行一次性操作,gcp会产生货币成本。
你以前遇到过同样的情况吗?在保持低成本的同时,您是如何做到这一点的?您推荐哪种方法(欢迎上面未列出的其他方法)?我感谢你的意见,谢谢!
暂无答案!
目前还没有任何答案,快来回答吧!