我的问题需要获取许多源数据集,对它们应用转换来生成中间数据集,然后生成几个最终数据集。大多数数据都是静态的,但是,我需要支持在转换中更改参数。这意味着需要重新计算转换的结果以及依赖于它的数据集。我简要介绍了beam、airflow、flink和其他一些,但它们主要集中在1.)流化或2.)并行化上。这些是否支持中间步骤的无效化,或者其他库/框架是否更适合?谢谢!
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!