apache flink:在数据集上使用count()时,只执行此作业

liwlm1x9  于 2021-06-25  发布在  Flink
关注(0)|答案(1)|浏览(303)

我遇到了一个奇怪的问题:当我在其他处理(bulkiteration)之前对数据集使用count()时,apache flink将只执行count()的计划并跳过我的其他操作。我在日志里找不到关于那件事的任何东西。
而且,这在我的ide中不会发生。所有的操作都在那里进行。只有当我通过webui上传时,才会出现这种问题。
那么:这是一个普遍的问题吗?我如何解决这个问题而不必自己计算值?
谢谢!
更新:
代码做了类似的事情(好吧,我知道,这个例子不是为高效代码设计的,但是它显示了我的问题)。

import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.aggregation.Aggregations;
import org.apache.flink.api.java.tuple.Tuple1;

import java.util.LinkedList;
import java.util.List;
import java.util.Random;

public class CountProblemExample {

    public static void main(String[] args) throws Exception {
        Random rnd = new Random();

        int randomNumber = 100000 + rnd.nextInt(100000);

        List<Double> doubles = new LinkedList<>();
        for (int i = 0; i < randomNumber; i++) {
            doubles.add(rnd.nextDouble());
        }

        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

        DataSet<Double> doubleDataSet = env.fromCollection(doubles);

        final int count = (int)doubleDataSet.count(); // In the UI there the code stops further execution

        DataSet<Double> avgSet = doubleDataSet
                .map(new MapFunction<Double, Tuple1<Double>>() {
                    @Override
                    public Tuple1<Double> map(Double value) throws Exception {
                        return new Tuple1<>(value);
                    }
                })
                .aggregate(Aggregations.SUM, 0)
                .map(new MapFunction<Tuple1<Double>, Double>() {
                    @Override
                    public Double map(Tuple1<Double> t) throws Exception {
                        double avg = 0;
                        if (count > 0) {
                            avg = t.f0 / count;
                        }

                        return avg;
                    }
                });

        double avg = avgSet
                .collect()
                .get(0);

        System.out.println(avg);
    }

}
cetgtptt

cetgtptt1#

你可能忘了打电话了 ExecutionEnvironment.execute() . 在调用该方法之前,不会执行数据集作业。 DataSet.count() 以及 DataSet.collect() 内部触发执行。

相关问题