我最近开始使用hadoop，只是创建了自己的inputformat来处理pdf。
由于某些原因，我的自定义recordreader类没有调用它的initialize方法(用sysout检查，因为我还没有设置调试环境）
我在Windows7 32位上运行Hadoop2.2.0。用yarn jar做我的调用，因为hadoop jar在windows下被窃听了。。。

import ...
public class PDFInputFormat extends FileInputFormat<Text, Text>
{
        @Override
        public RecordReader<Text, Text> getRecordReader(InputSplit arg0,
                JobConf arg1, Reporter arg2) throws IOException 
                {
                    return new PDFRecordReader();
                }
        public static class PDFRecordReader implements RecordReader<Text, Text>
        {
            private FSDataInputStream fileIn;
            public String fileName=null;
            HashSet<String> hset=new HashSet<String>();
            private Text key=null;
            private Text value=null;
            private byte[] output=null;
            private int position = 0;
            @Override
            public Text createValue() {
                int endpos = -1;
                for (int i = position; i < output.length; i++){
                    if (output[i] == (byte) '\n') {
                        endpos = i;
                    }
                }
                if (endpos == -1) {
                    return new Text(Arrays.copyOfRange(output,position,output.length));
                }
                return new Text(Arrays.copyOfRange(output,position,endpos));
            }
            @Override
            public void initialize(InputSplit genericSplit, TaskAttemptContext job) throws
            IOException, InterruptedException
            {
                System.out.println("initialization is called");
                FileSplit split=(FileSplit) genericSplit;
                Configuration conf=job.getConfiguration();
                Path file=split.getPath();
                FileSystem fs=file.getFileSystem(conf);
                fileIn= fs.open(split.getPath());
                fileName=split.getPath().getName().toString();
                System.out.println(fileIn.toString());
                PDDocument docum = PDDocument.load(fileIn);
                ByteArrayOutputStream boss = new ByteArrayOutputStream();
                OutputStreamWriter ow = new OutputStreamWriter(boss);
                PDFTextStripper stripper=new PDFTextStripper();
                stripper.writeText(docum, ow);
                ow.flush();
                output = boss.toByteArray();
            }
        }
}

@Override
public void initialize(InputSplit genericSplit, TaskAttemptContext job) throws
IOException, InterruptedException
{
throw new NullPointerException("inside initialize()");
....

2条答案

按热度按时间

yws3nbqq1#

我昨晚想出来了，我可能会帮别人：
recordreader是一个不推荐使用的hadoop接口（hadoop.common.mapred），它实际上不包含initialize方法，这就解释了为什么不能自动调用它。
通过扩展hadoop.common.mapreduce中的recordreader类，可以扩展该类的initialize方法。

赞(0）回复(0）举报 2021-06-03

qqrboqgw2#

这个 System.out.println() 运行作业时可能没有帮助。以确保您的 initialize() 是叫还是不试试扔一些 RuntimeException 具体如下：

@Override
            public void initialize(InputSplit genericSplit, TaskAttemptContext job) throws
            IOException, InterruptedException
            {
               throw new NullPointerException("inside initialize()");
               ....

这绝对可以。

未调用自定义recordreader initialize

2条答案

相关问题

热门标签

最新问答