无法使用spark-1.6.1-bin-hadoop1运行spark terasort

e3bfsja2 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(376)

我正在尝试用spark-1.6.1-bin-hadoop1（hadoop1.x的预构建包）运行spark-terasort。
当我尝试运行spark时：

./bin/spark-submit --class com.github.ehiggs.spark.terasort.TeraGen  ~/spark-terasort/target/spark-terasort-1.0-jar-with-dependencies.jar 100G hdfs:///input_terasort

我得到一个错误：
线程“main”java.lang.CompatibleClassChangeError中出现异常：找到类org.apache.hadoop.mapreduce.jobcontext，但应为接口
这可能与不同的hadoop版本有关（在spark和spark terasort之间）。我尝试过使用pom.xml（用于编译spark terasort），但没有太大成功。
如何将spark terasort与spark-1.6.1-bin-hadoop1结合使用？

hadoop Maven apache-spark

来源：https://stackoverflow.com/questions/37280725/unable-to-run-spark-terasort-with-spark-1-6-1-bin-hadoop1

1条答案

按热度按时间

6mzjoqzu1#

这个 spark-terasort 是旧的：

<scala.binary.version>2.10</scala.binary.version>
  <spark.version>1.2.1</spark.version>

我正在研究修补它。会回来的。。
我尝试过的更新 1.6.0-SNAPSHOT teragen工作得很好。

Input size: 1000KB
Total number of records: 10000
Number of output partitions: 2
Number of records/output partition: 5000
===========================================================================
===========================================================================
Number of records written: 10000

这是在对本地文件系统运行时发生的。我将在大约12小时后查看真正的HDF。

赞(0）回复(0）举报 2021-05-30

我来回答

无法使用spark-1.6.1-bin-hadoop1运行spark terasort

1条答案

相关问题

热门标签

最新问答