我想将其他python/csv文件导入我的python udf来执行一些操作。比如,将表数据(以流形式逐行流入)与外部.csv行进行比较。当我试图读取.csv文件的数据时,它给了我一个错误ioerror:文件/home//xyz/myfile.csv不存在当代码作为常规python脚本(不像udf)编写时,它工作得非常好
fykwrbwg1#
如果我理解正确的话。您可以尝试添加文件[您的完整文件路径]或添加文件[您的目录路径]。因为在引用集群上的任何内容之前,必须将其添加到分发缓存中,以便那里的代码可以访问该部分。你可以看看。https://cwiki.apache.org/confluence/display/hive/languagemanual+cli
bzzcjhmw2#
注意语法!它可能会导致许多问题,不幸的是,查询语言解释器无法显示问题的来源,它只显示一些通用的错误报告。看看这里同样的问题,它是由寻址文件时的语法问题引起的!在python-udf中访问外部文件
2条答案
按热度按时间fykwrbwg1#
如果我理解正确的话。您可以尝试添加文件[您的完整文件路径]或添加文件[您的目录路径]。
因为在引用集群上的任何内容之前,必须将其添加到分发缓存中,以便那里的代码可以访问该部分。你可以看看。https://cwiki.apache.org/confluence/display/hive/languagemanual+cli
bzzcjhmw2#
注意语法!它可能会导致许多问题,不幸的是,查询语言解释器无法显示问题的来源,它只显示一些通用的错误报告。
看看这里同样的问题,它是由寻址文件时的语法问题引起的!
在python-udf中访问外部文件