gpload实用程序:用于将大量数据加载到greenplum中的源hadoop

af7jpaap  于 2021-06-01  发布在  Hadoop
关注(0)|答案(0)|浏览(253)

我们有小型hadoop和greenplum集群。通过使用gpload merge语句,希望将hadoop数据放入greenplum中。
请就这个过程提出建议。
问题:
我需要在基于hadoop的linux虚拟机上安装gpload实用程序吗?
然后,我必须按固定的时间间隔安排基于合并的gpload脚本?
在greenplum的vm中运行gpload是否可以接收hadoop文件?
输入gpload.yml

VERSION: 1.0.0.1
DATABASE: test
USER: gpadmin
HOST: gpdbhostname
PORT: 5432
GPLOAD:
   INPUT:
    - SOURCE:
         LOCAL_HOSTNAME:
           - gpdbhostname
         PORT: 8080
         FILE:
           - /home/gpadmin/demo/input_table.txt

    - COLUMNS:
           - id: bigint
           - time: timestamp

    - FORMAT: text
    - DELIMITER: ';'
    - NULL_AS: ''
   OUTPUT:
    - TABLE: output_table
    - MODE: merge
    - MATCH_COLUMNS:
           - id
    - UPDATE_COLUMNS:
           - time
~

在这种情况下,如果我想通过gpload合并脚本将源hdfs csv文件写入greenplum正则表,那么gpload.yml将是什么。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题