我有一节课 ImageInputFormat
在hadoop中,它从hdfs读取图像。如何在spark中使用我的输入格式?
这是我的 ImageInputFormat
:
public class ImageInputFormat extends FileInputFormat<Text, ImageWritable> {
@Override
public ImageRecordReader createRecordReader(InputSplit split,
TaskAttemptContext context) throws IOException, InterruptedException {
return new ImageRecordReader();
}
@Override
protected boolean isSplitable(JobContext context, Path filename) {
return false;
}
}
2条答案
按热度按时间djp7away1#
所有图像都存储在hadooprdd中?
是的,spark中保存的所有内容都是RDD
是否可以设置rdd容量,当rdd满时,剩余数据将存储在磁盘中?
spark中的默认存储级别是(storagelevel.memory\u only),使用memory\u only\u ser,这样更节省空间。请参阅spark文档>scala编程>rdd持久性
如果数据太大会影响性能吗?
随着数据大小的增加,它也会影响性能。
zvokhttg2#
sparkcontext有一个名为
hadoopFile
. 它接受实现接口的类org.apache.hadoop.mapred.InputFormat
它的描述是“获取具有任意输入格式的hadoop文件的rdd”。另请看一下spark文档。