我使用hadoop fs-put命令将数据加载到hdfs中,数据是一组丰富的文档,如pdf、doc和文本文件。如何索引这些数据以便能够在solr中查询它?
3okqufwl1#
使用apache tika。它是为从pdf或doc等丰富的文件格式中提取文本和元数据而创建的。solr附带了用于tika的jar,因此您只需快速查看将jar用作命令行实用程序的说明,就可以开始了:http://tika.apache.org/1.5/gettingstarted.html
1条答案
按热度按时间3okqufwl1#
使用apache tika。它是为从pdf或doc等丰富的文件格式中提取文本和元数据而创建的。solr附带了用于tika的jar,因此您只需快速查看将jar用作命令行实用程序的说明,就可以开始了:http://tika.apache.org/1.5/gettingstarted.html