我在lucene索引中索引了数千个客户名称、备选名称、企业名称等详细信息(索引不存储在hdfs中)。
我在hdfs中有大量(>100m)的个人数据,我想用lucene索引扫描个人数据,我目前正在使用pig处理hdfs中的数据。
我试图找出是否有可能运行pig作业来提取数据并并行执行对lucene索引的查询(可能是通过使用自定义编写的udf),我无法思考如何在pig作业中加载和共享lucene本地索引(在lucene查询之后,如果找到匹配项,我需要匹配的文档id)。
有可能用Pig吗?或者我需要为此编写自定义的map reduce作业?或者其他建议?
谢谢。
1条答案
按热度按时间qxgroojn1#
你肯定需要自定义项的 elephant-bird 的lucene装载机是一个很好的起点。去看看吧https://github.com/kevinweil/elephant-bird/tree/master/pig