apache spark s3错误

fruv7luv 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(431)

我在试着联系 amazon s3 至 Sparkstreaming . 我在本地机器上运行代码，试图从s3流式传输到spark，出现以下错误：
java.io.ioexception:scheme:s3n没有文件系统
你能帮我解决这个问题吗？

1条答案

您可以通过在spark上下文的hadoop配置中指定s3n方案的实现来解决这个问题：

sparkContext.hadoopConfiguration.set("fs.s3.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")

为了访问s3，您可能还需要指定aws凭据：

sparkContext.hadoopConfiguration.set("fs.s3n.awsAccessKeyId", "***")
sparkContext.hadoopConfiguration.set("fs.s3n.awsSecretAccessKey", "***")

然后可以按以下方式创建streamingcontext：

val ssc = new StreamingContext(sc, Seconds(1))

您可能希望尝试通过s3a://而不是s3n://访问s3，s3n://使用aws sdk库而不是jets3t来访问文件。