无法使用spark-1.6.1-bin-hadoop1运行spark terasort

e3bfsja2  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(376)

我正在尝试用spark-1.6.1-bin-hadoop1(hadoop1.x的预构建包)运行spark-terasort。
当我尝试运行spark时:

./bin/spark-submit --class com.github.ehiggs.spark.terasort.TeraGen  ~/spark-terasort/target/spark-terasort-1.0-jar-with-dependencies.jar 100G hdfs:///input_terasort

我得到一个错误:
线程“main”java.lang.CompatibleClassChangeError中出现异常:找到类org.apache.hadoop.mapreduce.jobcontext,但应为接口
这可能与不同的hadoop版本有关(在spark和spark terasort之间)。我尝试过使用pom.xml(用于编译spark terasort),但没有太大成功。
如何将spark terasort与spark-1.6.1-bin-hadoop1结合使用?

6mzjoqzu

6mzjoqzu1#

这个 spark-terasort 是旧的:

<scala.binary.version>2.10</scala.binary.version>
  <spark.version>1.2.1</spark.version>

我正在研究修补它。会回来的。。
我尝试过的更新 1.6.0-SNAPSHOT teragen工作得很好。

Input size: 1000KB
Total number of records: 10000
Number of output partitions: 2
Number of records/output partition: 5000
===========================================================================
===========================================================================
Number of records written: 10000

这是在对本地文件系统运行时发生的。我将在大约12小时后查看真正的HDF。

相关问题