我是个有Hive的新手,希望能得到一些帮助。我按照这里的说明将hdfs分区的数据用于使用sparklyr进行分析。根据指令,我需要先将数据加载到配置单元表中。
我的数据按年份和月份进行分区:
/user/rstudio-user/mydata/year=2010/month=1
/user/rstudio-user/mydata/year=2010/month=2
...
/user/rstudio-user/mydata/year=2020/month=1
...
/* and so on for every single month from 2010 to 2020 */
每个目录中都有多个Parquet文件:
/user/rstudio-user/mydata/year=2010/month=1/file_part1.parquet
/user/rstudio-user/mydata/year=2010/month=1/file_part2.parquet
...
我很难将数据加载到配置单元表中。我假设需要手动指定每个目录。这就是我所尝试的:
CREATE EXTERNAL TABLE IF NOT EXISTS mydata
(prefix string,
key string,
value float,
time timestamp)
PARTITIONED BY
(year int,
month int)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
LOAD DATA INPATH '/user/rstudio-user/mydata/year=2010/month=1' INTO TABLE mydata PARTITION (year='2020', month='1');
除了指定每年和每月之外,还有更好的方法吗?非常感谢您的帮助!
暂无答案!
目前还没有任何答案,快来回答吧!