来自hadoop pig jobs的lucene查询

zengzsys 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(363)

我在lucene索引中索引了数千个客户名称、备选名称、企业名称等详细信息（索引不存储在hdfs中）。
我在hdfs中有大量（>100m）的个人数据，我想用lucene索引扫描个人数据，我目前正在使用pig处理hdfs中的数据。
我试图找出是否有可能运行pig作业来提取数据并并行执行对lucene索引的查询（可能是通过使用自定义编写的udf），我无法思考如何在pig作业中加载和共享lucene本地索引（在lucene查询之后，如果找到匹配项，我需要匹配的文档id）。
有可能用Pig吗？或者我需要为此编写自定义的map reduce作业？或者其他建议？
谢谢。

hadoop apache-pig lucene

来源：https://stackoverflow.com/questions/16291604/lucene-query-from-hadoop-pig-jobs