如何使用org.apache.spark.sql.json读取分区文件?

mkshixfv  于 2021-06-26  发布在  Hive
关注(0)|答案(0)|浏览(250)

我在aws emr中有一个超过400000个分区的表。数据驻留在aws s3上。这里每个分区都是一个目录,其中有一个gz文件,其中包含一个json数组。
所以我想用 org.apache.spark.sql.json 为了创建表,希望它能自动解析数组,我可以很容易地提取数据。
但以下命令失败。我有 data.json.gz 或者 data.json 中的文件 s3://my/test/data/partition=1987 ```
CREATE TABLE testTable (
jsonArrData STRING
, partitionKey INT )
USING org.apache.spark.sql.json
PARTITIONED BY (partitionKey)
LOCATION 's3://my/test/data/';

msck repair table testTable;

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题