我尝试在aws emr上使用pig脚本批处理kinesis流中的一些数据。我只需要将流数据分组并将其移动到s3。我试着每隔几个小时做一次。一开始,它似乎非常适合于aws数据管道,但我不知道如何传入一个迭代编号来用于kinesis检查点。看起来没有任何方法可以增加一个数字来传递给pig脚本。我在这里看到了一个示例,它包括一个始终开启的集群和一个crontab脚本,它增加了迭代次数。有没有一种方法可以使用我所缺少的aws数据管道来实现这一点?
我尝试在aws emr上使用pig脚本批处理kinesis流中的一些数据。我只需要将流数据分组并将其移动到s3。我试着每隔几个小时做一次。一开始,它似乎非常适合于aws数据管道,但我不知道如何传入一个迭代编号来用于kinesis检查点。看起来没有任何方法可以增加一个数字来传递给pig脚本。我在这里看到了一个示例,它包括一个始终开启的集群和一个crontab脚本,它增加了迭代次数。有没有一种方法可以使用我所缺少的aws数据管道来实现这一点?
1条答案
按热度按时间4jb9z9bj1#
我们确实有一个使用数据管道来完成您想要的任务的例子,但是它使用了hive而不是pig。这也许足以给你一个想法,让你走上正确的道路。
https://github.com/awslabs/data-pipeline-samples/tree/master/samples/kinesis
如果这个例子仍然不能回答您的问题,请让我们知道,这样我们就可以考虑创建另一个例子来解决您的用例。