如何在配置单元中为批处理数据创建分层分区

xtfmy6hx  于 2021-06-28  发布在  Hive
关注(0)|答案(1)|浏览(344)

考虑2000年的数据。

测试.csv

  1. country_code,product_code,rpt_period
  2. us,crd,2000
  3. us,pcl,2000
  4. us,mtg,2000
  5. in,crd,2000
  6. in,pcl,2000
  7. in,mtg,2000

现在我将新生成的2001记录附加到test.csv。将新数据添加到test.csv后,我的数据如下所示。

附加.csv

  1. country_code,product_code,rpt_period
  2. us,crd,2000
  3. us,pcl,2000
  4. us,mtg,2000
  5. in,crd,2000
  6. in,pcl,2000
  7. in,mtg,2000
  8. us,crd,2001
  9. us,pcl,2001
  10. us,mtg,2001
  11. in,crd,2001
  12. in,pcl,2001
  13. in,mtg,2001

Hive中可能出现以下情况?如果是,请回答问题。
如何为分区表创建模式 Foo 使用这些数据?。我还需要分区列作为国家代码和产品代码。
例如,我想加载(从test.csv文件记录)到表 Foo ? 使用Hive LOAD DATA 科曼德?
如何将append.csv(仅2001条记录)加载到表中 Foo . 这也需要使用hive来完成 LOAD DATA 命令
谢谢。

5m1hhzi4

5m1hhzi41#

是的,您提到的所有场景都可以使用hive。
创建temp表并加载所有数据,然后可以创建包含2列的分区表。
对于2和3:只需load命令就可以了。如果要加载到分区表中,则必须创建临时表并插入到分区表中。
让我知道这是你想要的,否则更新你的问题。

相关问题