java中的配置单元udf在创建表时失败

f0brbegy 于 2021-06-24 发布在 Hive

关注(0)|答案(2)|浏览(392)

这两个查询之间的区别是什么：

SELECT my_fun(col_name) FROM my_table;

和

CREATE TABLE new_table AS SELECT my_fun(col_name) FROM my_table;

我的乐趣是java自定义项。
我这样问是因为当我创建新表（第二个查询）时，我收到一个java错误。

Failure while running task:java.lang.RuntimeException: java.lang.RuntimeException: Map operator initialization failed
...
Caused by: org.apache.hadoop.hive.ql.exec.UDFArgumentException: Unable to instantiate UDF implementation class com.company_name.examples.ExampleUDF: java.lang.NullPointerException

我发现错误的来源是我的java文件中的第行：

encoded = Files.readAllBytes(Paths.get(configPath));

但问题是，为什么它在未创建表时工作，而在创建表时失败？

Java Hive hive-udf

来源：https://stackoverflow.com/questions/63192087/hive-udf-in-java-fails-when-creating-a-table

2条答案

按热度按时间

ux6nzvsh1#

问题可能出在读取文件的方式上。尝试将文件路径作为udf中的第二个参数传递，然后如下所示

private BufferedReader getReaderFor(String filePath) throws HiveException {
    try {
        Path fullFilePath = FileSystems.getDefault().getPath(filePath);
        Path fileName = fullFilePath.getFileName();
        if (Files.exists(fileName)) {
            return Files.newBufferedReader(fileName, Charset.defaultCharset());
        }
        else
        if (Files.exists(fullFilePath)) {
            return Files.newBufferedReader(fullFilePath, Charset.defaultCharset());
        }
        else {
            throw new HiveException("Could not find \"" + fileName + "\" or \"" + fullFilePath + "\" in inersect_file() UDF.");
        }
    }
    catch(IOException exception) {
        throw new HiveException(exception);
    }
}

private void loadFromFile(String filePath) throws HiveException {
    set = new HashSet<String>();

    try (BufferedReader reader = getReaderFor(filePath)) {
        String line;
        while((line = reader.readLine()) != null) {
            set.add(line);
        }
    } catch (IOException e) {
        throw new HiveException(e);
    }
}

这里可以找到使用文件读取器的不同通用udf的完整代码

赞(0）回复(0）举报 2021-06-24

xu3bshqb2#

我认为有几点不清楚，所以这个答案是基于假设的。
首先，重要的是要了解hive当前优化了几个简单的查询，并根据数据的大小优化了适合您的查询 SELECT my_fun(col_name) FROM my_table; 很可能是从执行作业的客户端本地运行的，这就是为什么udf可以访问本地可用的配置文件，这种“执行模式”是因为数据的大小。cta触发一个独立于输入数据的作业，该作业在集群中分布式运行，每个工作进程都无法访问您的配置文件。
看起来您正在尝试从本地文件系统而不是hdsfs读取配置文件 Files.readAllBytes(Paths.get(configPath)) ，这意味着您的配置必须在所有工作节点中复制，或者之前添加到分布式缓存（您可以使用add file from this，doc here）。您可以在这里找到关于从udf访问分布式缓存中的文件的另一个问题。
另一个问题是，您正在通过一个环境变量传递配置文件的位置，该环境变量没有作为配置单元作业的一部分传播到工作节点。您应该将此配置作为配置单元配置传递，这里有一个从udf访问配置单元配置的答案，假设您正在扩展genericudf。

赞(0）回复(0）举报 2021-06-24

我来回答

java中的配置单元udf在创建表时失败

2条答案

相关问题

热门标签

最新问答