如何在配置单元中为批处理数据创建分层分区

xtfmy6hx  于 2021-06-28  发布在  Hive
关注(0)|答案(1)|浏览(275)

考虑2000年的数据。

测试.csv

country_code,product_code,rpt_period
us,crd,2000
us,pcl,2000
us,mtg,2000
in,crd,2000
in,pcl,2000
in,mtg,2000

现在我将新生成的2001记录附加到test.csv。将新数据添加到test.csv后,我的数据如下所示。

附加.csv

country_code,product_code,rpt_period
us,crd,2000
us,pcl,2000
us,mtg,2000
in,crd,2000
in,pcl,2000
in,mtg,2000
us,crd,2001
us,pcl,2001
us,mtg,2001
in,crd,2001
in,pcl,2001
in,mtg,2001

Hive中可能出现以下情况?如果是,请回答问题。
如何为分区表创建模式 Foo 使用这些数据?。我还需要分区列作为国家代码和产品代码。
例如,我想加载(从test.csv文件记录)到表 Foo ? 使用Hive LOAD DATA 科曼德?
如何将append.csv(仅2001条记录)加载到表中 Foo . 这也需要使用hive来完成 LOAD DATA 命令
谢谢。

5m1hhzi4

5m1hhzi41#

是的,您提到的所有场景都可以使用hive。
创建temp表并加载所有数据,然后可以创建包含2列的分区表。
对于2和3:只需load命令就可以了。如果要加载到分区表中,则必须创建临时表并插入到分区表中。
让我知道这是你想要的,否则更新你的问题。

相关问题