我有一个Parquet地板与模式的数据文件;
id整数
模型二进制
该文件是使用pyspark和组模型标识符创建的,并使用pickle python库模型二进制文件转储。
是否可以为此Parquet文件创建配置单元外部表,并在select命令后获取输出。假设配置单元外部表具有完全相同的模式。
CREATE EXTERNAL TABLE default.t_model
(
id integer
, model binary
)
STORED AS PARQUET
LOCATION 'hdfs_path';
我已经做了上面的每一步,但总是得到空的答案集。我应该使用配置单元自定义项来加载二进制列吗?或者我应该为parquet二进制列数组尝试另一种数据类型吗?
谢谢你的回答,谢谢。
1条答案
按热度按时间m0rkklqb1#
看起来我不应该在没有msck repair table命令的情况下使用分区表。对于配置单元二进制数据类型,一切正常。