python udf-导入/读取外部文件

dbf7pr2w  于 2021-06-26  发布在  Hive
关注(0)|答案(2)|浏览(371)

我想将其他python/csv文件导入我的python udf来执行一些操作。
比如,
将表数据(以流形式逐行流入)与外部.csv行进行比较。
当我试图读取.csv文件的数据时,它给了我一个错误
ioerror:文件/home//xyz/myfile.csv不存在
当代码作为常规python脚本(不像udf)编写时,它工作得非常好

fykwrbwg

fykwrbwg1#

如果我理解正确的话。您可以尝试添加文件[您的完整文件路径]或添加文件[您的目录路径]。
因为在引用集群上的任何内容之前,必须将其添加到分发缓存中,以便那里的代码可以访问该部分。你可以看看。https://cwiki.apache.org/confluence/display/hive/languagemanual+cli

bzzcjhmw

bzzcjhmw2#

注意语法!它可能会导致许多问题,不幸的是,查询语言解释器无法显示问题的来源,它只显示一些通用的错误报告。
看看这里同样的问题,它是由寻址文件时的语法问题引起的!
在python-udf中访问外部文件

相关问题