未设置hadoop pig输出目录

db2dz4w8 于 2021-06-04 发布在 Hadoop

关注(0)|答案(5)|浏览(319)

我正在编写我自己的pig store类，我不想将其存储在文件中，我计划将其发送到第三方数据存储（缺少api调用）。
注意：我在cloudera的virtualbox映像上运行它。
我已经编写了java类（如下所示），并创建了mystore.jar，我正在下面的id.pig脚本中使用它：

store B INTO 'mylocation' USING MyStore('mynewlocation')

使用pig运行此脚本时，我看到以下错误：错误6000:的输出位置验证失败：'file://home/cloudera/test/id.out 更多信息如下：输出目录未设置。

or.apache.pig.impl.plan.VisitorException: ERROR 6000:
at or.apache.pig.newplan.logical.rules.InputOutputFileValidator$InputOutputFileValidator.visit(InputOutputFileValidator.java:95)

请帮帮我！

hadoop bigdata apache-pig

来源：https://stackoverflow.com/questions/14720044/hadoop-pig-output-directory-not-set

5条答案

按热度按时间

7qhs6swi1#

首先，我认为应该使用作业配置来存储位置值，而不是示例变量
在规划作业时，将调用setstorelocation方法中对局部变量“location”的赋值，但在执行阶段之前可能不会调用getoutputformat，此时可能不再设置location变量（可能已创建类的新示例）。
如果你从源头上寻找 PigStorage.setStoreLocation ，您应该注意到它们将位置存储在作业配置中（第2行）：

@Override
public void setStoreLocation(String location, Job job) throws IOException {
    job.getConfiguration().set("mapred.textoutputformat.separator", "");
    FileOutputFormat.setOutputPath(job, new Path(location));

    if( "true".equals( job.getConfiguration().get( "output.compression.enabled" ) ) ) {
        FileOutputFormat.setCompressOutput( job, true );
        String codec = job.getConfiguration().get( "output.compression.codec" );
        try {
            FileOutputFormat.setOutputCompressorClass( job,  (Class<? extends CompressionCodec>) Class.forName( codec ) );
        } catch (ClassNotFoundException e) {
            throw new RuntimeException("Class not found: " + codec );
        }
    } else {
        // This makes it so that storing to a directory ending with ".gz" or ".bz2" works.
        setCompression(new Path(location), job);
    }
}

所以我认为应该将位置存储在作业变量中：

@Override
public void setStoreLocation(String location, Job job) throws IOException {
    if(location!= null)
        job.getConfiguration().set("mylocation", location);
}

您的自定义输出格式可以在createrecordreader方法中提取：

@Override
public RecordWriter<WritableComparable, Tuple> getRecordWriter(
        TaskAttemptContext job) throws IOException, InterruptedException {

    Configuration conf = job.getConfiguration();

    String extension = conf.get("mylocation");
    Path file = getDefaultWorkFile(job, extension);     
    FileSystem fs = file.getFileSystem(conf);

    FSDataOutputStream fileOut = fs.create(file, false);

    return new MyStoreRecordWriter(fileOut);
}

最后（可能是您看到的错误的实际原因），您的输出格式扩展了textoutputformat，并且您使用 getDefaultWorkFile 方法-此方法需要知道在hdfs中将文件输出到何处，而您没有调用 FileOutputFormat.setOutputPath(job, new Path(location)); 在setstorelocation方法中（请参阅前面粘贴的pigstorage.setstorelocation方法）。所以这个错误是因为它不知道在哪里创建默认的工作文件。

赞(0）回复(0）举报 2021-06-04

ttvkxqim2#

public class MyStore extends StoreFunc {
    protected RecordWriter writer = null;
    private String location = null;

    public MyStore () {
        location= null;
    }

    public MyStore (String location) {
        this.location= location;
    }

    @Override
    public OutputFormat getOutputFormat() throws IOException {
        return new MyStoreOutputFormat(location);
    }

    @Override
    public void prepareToWrite(RecordWriter writer) throws IOException {
        this.writer = writer;
    }

    @Override
    public void putNext(Tuple tuple) throws IOException {
        //write tuple to location

        try {
            writer.write(null, tuple.toString());
        } catch (InterruptedException e) {          
            e.printStackTrace();
        }
    }

    @Override
    public void setStoreLocation(String location, Job job) throws IOException {
        if(location!= null)
            this.location= location;
    }

}

赞(0）回复(0）举报 2021-06-04

3pvhb19x3#

import java.io.DataOutputStream;
import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.pig.data.Tuple;

public class MyStoreOutputFormat extends
        TextOutputFormat<WritableComparable, Tuple> {
    private String location = null;

    public MyStoreOutputFormat(String location) {

        this.location = location;
    }

    @Override
    public RecordWriter<WritableComparable, Tuple> getRecordWriter(
            TaskAttemptContext job) throws IOException, InterruptedException {

        Configuration conf = job.getConfiguration();

        String extension = location;
        Path file = getDefaultWorkFile(job, extension);     
        FileSystem fs = file.getFileSystem(conf);

        FSDataOutputStream fileOut = fs.create(file, false);

        return new MyStoreRecordWriter(fileOut);
    }

    protected static class MyStoreRecordWriter extends
            RecordWriter<WritableComparable, Tuple> {

        DataOutputStream out = null;

        public MyStoreRecordWriter(DataOutputStream out) {
            this.out = out;
        }

        @Override
        public void close(TaskAttemptContext taskContext) throws IOException,
                InterruptedException {
            // close the location
        }

        @Override
        public void write(WritableComparable key, Tuple value)
                throws IOException, InterruptedException {

            // write the data to location
            if (out != null) {
                out.writeChars(value.toString()); // will be calling API later. let me first dump to the location!
            }
        }

    }
}

我漏了什么吗？

赞(0）回复(0）举报 2021-06-04

qvtsj1bj4#

mystore.java文件

赞(0）回复(0）举报 2021-06-04

0tdrvxhp5#

mystoreoutputformat.java文件

赞(0）回复(0）举报 2021-06-04