我有这样一种情况:landing folder连续地获取一组csv文件,我们需要将每个文件原封不动地与另一个引用文件连接起来,只在该文件的数据中进行一些计算(分组和排名),然后将结果数据框保存为csv文件。这意味着每个传入文件将生成一个输出文件,所有计算聚合都在该文件的数据中。
我的问题是我们如何做到这一点,我的理解是spark将把任何可用的数据放到一个Dataframe中,并对整个数据集应用转换,我们可能会丢失来自每个文件的数据,而输出文件可能包含来自不同输入文件的聚合结果。
同时,我们应该能够通过分发工作节点来处理大量传入的文件集,但主要目标是一个传入文件,我们应该创建一个输出文件,并将转换应用于该文件中的数据。
暂无答案!
目前还没有任何答案,快来回答吧!