如何在apachespark中使用hadoop输入格式？

zqdjd7g9 于 2021-06-03 发布在 Hadoop

关注(0)|答案(2)|浏览(568)

我有一节课 ImageInputFormat 在hadoop中，它从hdfs读取图像。如何在spark中使用我的输入格式？
这是我的 ImageInputFormat :

public class ImageInputFormat extends FileInputFormat<Text, ImageWritable> {

    @Override
    public ImageRecordReader createRecordReader(InputSplit split, 
                  TaskAttemptContext context) throws IOException, InterruptedException {
        return new ImageRecordReader();
    }

    @Override
    protected boolean isSplitable(JobContext context, Path filename) {
        return false;
    }
}

hadoop hdfs apache-spark

来源：https://stackoverflow.com/questions/21015641/how-to-use-hadoop-inputformats-in-apache-spark

2条答案

按热度按时间

djp7away1#

所有图像都存储在hadooprdd中？
是的，spark中保存的所有内容都是RDD
是否可以设置rdd容量，当rdd满时，剩余数据将存储在磁盘中？
spark中的默认存储级别是（storagelevel.memory\u only），使用memory\u only\u ser，这样更节省空间。请参阅spark文档>scala编程>rdd持久性
如果数据太大会影响性能吗？
随着数据大小的增加，它也会影响性能。

赞(0）回复(0）举报 2021-06-03

zvokhttg2#

sparkcontext有一个名为 hadoopFile . 它接受实现接口的类 org.apache.hadoop.mapred.InputFormat 它的描述是“获取具有任意输入格式的hadoop文件的rdd”。
另请看一下spark文档。

赞(0）回复(0）举报 2021-06-03