aws athena:配置单元\未知\错误:无法创建输入格式

wecizke3  于 2021-06-27  发布在  Hive
关注(0)|答案(1)|浏览(508)

我已经在s3上使用aws glue,使用一个简单的xml分类器爬网了几个xml文件:

但是,当我尝试使用aws athena对该数据运行任何查询时,会出现以下错误(请注意,这是我在这里执行的最简单的查询):
配置单元\未知\错误:无法创建输入格式

请注意,athena可以看到我的表和列,但不能查询它们:

我注意到在aws论坛上有人也有同样的问题:athenaxml查询给hive一个未知错误,但是没有得到任何人的喜爱。
 
我知道这里有一个关于这个错误的类似问题,但是这个问题是针对rds数据库的,不像我这里的s3 bucket。
有人有解决办法吗?

7eumitmz

7eumitmz1#

不幸的是,在2018年12月,雅典娜无法查询xml输入,这很难理解,因为你可能听说雅典娜和aws glue可以查询xml。
你所看到的aws爬虫的输出是正确的,只是不是你认为它在做什么!例如,爬虫程序运行后,您看到了表,但无法执行任何athena查询。进入aws glue目录,右键单击表,单击表,编辑属性它将如下所示:

注意输入格式是如何为空的吗?如果您有任何其他表,您可以查看它们的属性或返回到输入格式化程序文档中。这是您收到的错误。
解决:
上传前将数据转换为text/json/avro/其他支持的格式
创建一个aws glue job,将源到目标从xml转换为目标支持的athena格式(希望用orc/parquet压缩)

相关问题