我有一个CSV文件如下所示。
我想过滤ID和Combinations的不同值,并将每个组合保存为Parquet文件。例如:12888_1.parquet,13368_1.parquet等....我有几个不同的ID和6个组合[1,2,3,4,5,6]。我知道复制活动可以保存任何文件为.parquet文件与自定义名称,但我不知道如何分组列和保存的parquet文件。任何帮助将不胜感激。
x3naxklr1#
id+combination
id,combo,character 123,1,A 123,1,B 123,1,C 234,1,D 234,1,E 234,2,F 234,2,G 234,2,H 234,2,I 234,3,J 345,3,K 345,3,L 345,3,M 456,4,N 456,4,O 567,5,P 567,5,Q 567,6,R 678,6,S
id and combo
@activity('get unique id and combo').output.runStatus.output.sink1.value
id==$id && combo==$combo
concat($id,'_',$combo,'.parquet')
1条答案
按热度按时间x3naxklr1#
id+combination
值,使用接收器缓存,迭代此结果并将值传递给另一个数据流,以便根据这些值进行过滤和写入。id and combo
对数据进行分组。使用任何聚合转换(无论如何,我们将在Map中排除它)。