我想自动化我的Hive脚本每天,为了做到这一点,我有一个选择,这是数据管道。但问题是,我正在将数据从dynamodb导出到s3,并使用一个配置单元脚本来处理这些数据。我在hive脚本中提供这个输入和输出,这就是问题开始的地方,因为hive活动必须有输入和输出,但我必须在脚本文件中提供它们。我正在试图找到一种方法来自动化这个Hive脚本,并等待一些想法?干杯,
mwyxok5s1#
您可以禁用配置单元活动上的转移以运行任意配置单元脚本。
stage = false
执行以下操作:
{ "name": "DefaultActivity1", "id": "ActivityId_1", "type": "HiveActivity", "stage": "false", "scriptUri": "s3://baucket/query.hql", "scriptVariable": [ "param1=value1", "param2=value2" ], "schedule": { "ref": "ScheduleId_l" }, "runsOn": { "ref": "EmrClusterId_1" } },
llew8vvj2#
hive活动的另一种替代方法是使用emr活动,如以下示例所示:
{ "schedule": { "ref": "DefaultSchedule" }, "name": "EMR Activity name", "step": "command-runner.jar,hive-script,--run-hive-script,--args,-f,s3://bucket/path/query.hql", "runsOn": { "ref": "EmrClusterId" }, "id": "EmrActivityId", "type": "EmrActivity" }
2条答案
按热度按时间mwyxok5s1#
您可以禁用配置单元活动上的转移以运行任意配置单元脚本。
执行以下操作:
llew8vvj2#
hive活动的另一种替代方法是使用emr活动,如以下示例所示: