在python udf中访问外部文件

mklgxw1f  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(444)

我正在使用hive和python自定义项。我定义了一个sql文件,在其中添加了python udf,并将其命名为。到目前为止还不错,我可以使用python函数处理查询结果。但是,此时,我必须在python udf中使用一个外部.txt文件。我将该文件上载到集群中(与.sql和.py文件的目录相同),并使用以下命令将其添加到.sql文件中:

ADD FILE /home/ra/stopWords.txt;

当我在python udf中调用此文件时:

file = open("/home/ra/stopWords.txt", "r")

我犯了几个错误。我不知道如何添加嵌套文件并在配置单元中使用它们。
你知道吗?

kuhbmx9i

kuhbmx9i1#

所有添加的文件都位于当前工作目录中( ./ )自定义项脚本。
如果使用添加单个文件 ADD FILE /dir1/dir2/dir3/myfile.txt ,它的路径将是

./myfile.txt

如果使用添加目录 ADD FILE /dir1/dir2 ,文件的路径为

./dir2/dir3/myfile.txt

相关问题