我在aws emr中有一个超过400000个分区的表。数据驻留在aws s3上。这里每个分区都是一个目录,其中有一个gz文件,其中包含一个json数组。
所以我想用 org.apache.spark.sql.json
为了创建表,希望它能自动解析数组,我可以很容易地提取数据。
但以下命令失败。我有 data.json.gz
或者 data.json
中的文件 s3://my/test/data/partition=1987
```
CREATE TABLE testTable
(jsonArrData
STRING
, partitionKey
INT )
USING org.apache.spark.sql.json
PARTITIONED BY (partitionKey
)
LOCATION 's3://my/test/data/';
msck repair table testTable;
暂无答案!
目前还没有任何答案,快来回答吧!