我是sparksql的新手。我无法访问 PySpark
因此,我们提交 Spark SQL
来自内部的查询 Sql-Workbench
查询 Hive
支持的表 AWS Glue catalog
在 AWS EMR cluster
.
在这样的表上提交analyze命令时遇到了问题。例如。 ANALYZE TABLE mydb.mytable COMPUTE STATISTICS
这句话的意思是: org.apache.spark.sql.AnalysisException: java.lang.IllegalArgumentException: Can not create a Path from an empty string
.
表格结构如下: SHOW CREATE TABLE mydb.mytable;
: CREATE EXTERNAL TABLE mydb.mytable ( emp_id STRING, emp_name STRING, emp_loc STRING, prcs_date DATE ) COMMENT 'My Test table' ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerde' WITH SERDEPROPERTIES ( 'serialization.format' = '1' ) STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat' LOCATION 's3://my-test-bucket/test/mytable' TBLPROPERTIES ( 'transient_lastDdlTime' = 123456790' )
我的目的是通过查找 Statistics
表的属性: DESCRIBE EXTENDED mydb.mytable
. 这也失败了 No object named mydb.mytable found!
有人能帮我吗?为什么这会引发错误和可能的解决方法。我们使用的是ApacheSpark2.4。
我怎样才能拿到钱 statistics
在spark可以使查询运行得更快的表上?
注意:我没有访问权限 PySpark
. 只能运行 Spark-Sql
查询通过 SQL-Workbench
工具。
暂无答案!
目前还没有任何答案,快来回答吧!