我正计划建立spark来剥离ec2。默认的spark_ec2.py下载一个预构建的包(1个用于hadoop 1.0.4,2个用于cdh 4.2.0,yarn(hadoop 2.4.0)),但它构建时没有“-phive-phive thriftserver”选项。大多数情况下,我需要使用配置单元自定义项,它必须从源代码构建(我也需要Yarn,因为“Hive上的Spark支持默认的Spark上的Yarn模式。”)
“BuildingSpark”页面展示了许多示例,似乎是一个
cloudera cdh 4.2.0和mapreduce v1 mvn -Dhadoop.version=2.0.0-mr1-cdh4.2.0 -Phadoop-1 -DskipTests clean package
和
支持Hive13的ApacheHadoop2.4.x mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -Phive -Phive-thriftserver -DskipTests clean package
(来源:http://spark.apache.org/docs/latest/building-spark.html)
目前,以下是我能想到的 mvn -Pyarn -Dhadoop.version=2.4.0-mr1-cdh4.2.0 -Phadoop-1 -Phive -Phive-thriftserver -DskipTests clean package
有没有人能告诉我以上是不是正确的,或者让我知道我可以从中学习的其他资源?
谢谢您。
1条答案
按热度按时间ezykj2lf1#
我被误解了
--hadoop-major-version
有3个选项:hadoop 1.0.4的“1”
“2”用于cdh 4.2.0(mr1)
Hadoop2.4.0的“Yarn”
我曾经
spark.ami.hvm.v14 (ami-35b1885c)
并能成功地建立了以下。./make-distribution.sh --name spark-1.6.0-bin-hadoop2.4-hive-yarn --tgz -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -Psparkr -Phive -Phive-thriftserver -DskipTests