使用spark/hadoop从s3读取时出错

b1zrtrql 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(519)

我正在尝试使用spark从amazons3读取数据。但我越来越

java.lang.NoClassDefFoundError: org/jets3t/service/S3ServiceException

从hadoop调用内部。我尝试过下载jets3t并将所有包含的jar添加到我的类路径中，但是没有任何帮助。以下是正在发生的事情的完整记录：

scala> val zz = sc.textFile("s3n:/<bucket>/<path>")
13/08/30 19:50:21 INFO storage.MemoryStore: ensureFreeSpace(45979) called with curMem=46019, maxMem=8579469803
13/08/30 19:50:21 INFO storage.MemoryStore: Block broadcast_1 stored as values to memory (estimated size 44.9 KB, free 8.0 GB)
zz: spark.RDD[String] = MappedRDD[3] at textFile at <console>:12

scala> zz.first
13/08/30 19:50:38 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
13/08/30 19:50:38 WARN snappy.LoadSnappy: Snappy native library not loaded
java.lang.NoClassDefFoundError: org/jets3t/service/S3ServiceException
at org.apache.hadoop.fs.s3native.NativeS3FileSystem.createDefaultStore(NativeS3FileSystem.java:224)
at org.apache.hadoop.fs.s3native.NativeS3FileSystem.initialize(NativeS3FileSystem.java:214)
at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:1386)
at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:66)
at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:1404)
at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:254)
at org.apache.hadoop.fs.Path.getFileSystem(Path.java:187)
at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:176)
at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:208)
at spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:76)
at spark.RDD.partitions(RDD.scala:214)
at spark.rdd.MappedRDD.getPartitions(MappedRDD.scala:26)
at spark.RDD.partitions(RDD.scala:214)
at spark.RDD.take(RDD.scala:764)
at spark.RDD.first(RDD.scala:778)

hadoop apache-spark amazon-s3 jets3t

来源：https://stackoverflow.com/questions/18543894/error-when-reading-from-s3-using-spark-hadoop

1条答案

按热度按时间

vsikbqxv1#

运行hadoop作业时，必须设置hadoop classpath环境变量。通常，这是在hadoop启动脚本中完成的。

export HADOOP_CLASSPATH=/path/to/yourlib:/path/to/your/other/lib

将：替换为；如果你在Windows上。

赞(0）回复(0）举报 2021-06-03

我来回答

使用spark/hadoop从s3读取时出错

1条答案

相关问题

热门标签

最新问答