我有一个jar文件,它有另一个jar文件作为参数。问题是我想在依赖jar文件上传递一个参数。
我的命令如下:
hadoop jar /opt/lucidworks-hdpsearch/job/lucidworks-hadoop-job-2.0.3.jar com.lucidworks.hadoop.ingest.IngestJob
-Dlww.commit.on.close=true -Dlw.tika.process=true -libjars /opt/lucidworks-hdpsearch/lib/solr-hadoop-tika-2.2.5.jar
-cls com.lucidworks.hadoop.ingest.DirectoryIngestMapper -c collection1 -i /user/solr/documents/test.pdf
-of com.lucidworks.hadoop.io.LWMapRedOutputFormat -s http://localhost:8983/solr
我正在使用hadoopsolr连接器来使用solr并从hdfs索引一些文件。这项工作需要 lucidworks-hadoop-job-2.0.3.jar
. 我路过 solr-hadoop-tika-2.2.5.jar
作为这个jar的参数,因为我拥有的文件是“富”文档。我需要提卡提取这些文件的内容。
默认情况下,tika从文档中提取内容和元数据。我不想在我的情况下的元数据。如果我单独使用tika,我可以这样做:
java -jar /opt/lucidworks-hdpsearch/lib/solr-hadoop-tika-2.2.5.jar -T /user/solr/documents/test.pdf
这将只提取文档的内容。
我想给你 -T
当我用tika和 lucidworks-hadoop-job-2.0.3.jar
.
有什么办法可以做到吗?
暂无答案!
目前还没有任何答案,快来回答吧!