我有一个配置单元表,我正试图使用morphline索引到solrcloud中,但是,配置单元表后面的数据是一个20gb的大文件,morphline需要很长时间来处理。
不是运行多个Map器和还原器,而是只能运行一个Map器,可能是因为我们只有一个文件。
yarn jar /opt/<path>/search-mr-1.0.0-cdh5.5.1-job.jar \
org.apache.solr.hadoop.MapReduceIndexerTool \
--morphline-file morphlines.conf \
--output-dir hdfs://<outputdir> \
--zk-host node1.datafireball.com:2181/solr \
--collection <collectionname> \
--input-list <filewherethedatais> \
--mappers 6
但还是只踢出了一份工作。。。这需要很长时间,有人能解释一下吗?
您可能会发现有用的资源:
cloudera mapreduce批量索引到solrcloud
这条线属于哪只风筝。
暂无答案!
目前还没有任何答案,快来回答吧!