我正在攻读博士学位,我被apache spark的三个关键问题困住了:
有没有一种方法可以为sparksql编写一个自定义连接(不管是equal还是任何其他类型的连接)算法并将其应用于数据集?
想象一下,有一组任务,比如说,连接两个数据集。如何才能编写自己的任务执行器管理器,以便发送两个相同的任务,其中第二个任务只是保留任务,在指定时间之前不应处理,可能会按需运行?
是否可以编写自己的失败作业处理程序来跟踪失败的任务,并使用特定变量执行相同的任务?
我正在攻读博士学位,我被apache spark的三个关键问题困住了:
有没有一种方法可以为sparksql编写一个自定义连接(不管是equal还是任何其他类型的连接)算法并将其应用于数据集?
想象一下,有一组任务,比如说,连接两个数据集。如何才能编写自己的任务执行器管理器,以便发送两个相同的任务,其中第二个任务只是保留任务,在指定时间之前不应处理,可能会按需运行?
是否可以编写自己的失败作业处理程序来跟踪失败的任务,并使用特定变量执行相同的任务?
暂无答案!
目前还没有任何答案,快来回答吧!