我已经实现了几个(大约十几个)mapreduce任务,每个任务都是由一个简单bash脚本执行的工作流的一部分。出于各种原因,我想将工作流转移到apachecrunch。
但是,我不清楚如何将mapreduce任务作为crunch函数运行而不重新实现它们。有没有一种简单的方法可以将map和reduce实现作为crunch函数使用?我也想维护工具的实现,这样mapreduce任务既可以独立运行,也可以作为crunch工作流的一部分运行;有什么办法吗?
谢谢你的真知灼见。
我已经实现了几个(大约十几个)mapreduce任务,每个任务都是由一个简单bash脚本执行的工作流的一部分。出于各种原因,我想将工作流转移到apachecrunch。
但是,我不清楚如何将mapreduce任务作为crunch函数运行而不重新实现它们。有没有一种简单的方法可以将map和reduce实现作为crunch函数使用?我也想维护工具的实现,这样mapreduce任务既可以独立运行,也可以作为crunch工作流的一部分运行;有什么办法吗?
谢谢你的真知灼见。
1条答案
按热度按时间mlnl4t2r1#
对于任何可能无意中发现这一点的人来说,crunch libs中有一个文档最少的api。然而,这是相当直接的。
请看这里:https://crunch.apache.org/apidocs/0.10.0/org/apache/crunch/lib/mapreduce.html