apache spark s3错误

fruv7luv  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(431)

我在试着联系 amazon s3Sparkstreaming . 我在本地机器上运行代码,试图从s3流式传输到spark,出现以下错误:
java.io.ioexception:scheme:s3n没有文件系统
你能帮我解决这个问题吗?

lqfhib0f

lqfhib0f1#

您可以通过在spark上下文的hadoop配置中指定s3n方案的实现来解决这个问题:

sparkContext.hadoopConfiguration.set("fs.s3.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")

为了访问s3,您可能还需要指定aws凭据:

sparkContext.hadoopConfiguration.set("fs.s3n.awsAccessKeyId", "***")
sparkContext.hadoopConfiguration.set("fs.s3n.awsSecretAccessKey", "***")

然后可以按以下方式创建streamingcontext:

val ssc = new StreamingContext(sc, Seconds(1))

您可能希望尝试通过s3a://而不是s3n://访问s3,s3n://使用aws sdk库而不是jets3t来访问文件。

相关问题