我在Apache Flink中运行了一个流作业。
它由以下运算符组成:
1.源函数(生成数据)
1.过滤功能(过滤掉一些数据)
- GroupBy和aggregate(基于键对数据进行分组,然后对它们运行聚合函数)
1.另一个筛选功能
1.文件接收器(将输出保存到文件)
然而,当我提交作业时,我得到了下面的图形。
例如,您可以看到,第3步和第4步合并在一起。我的问题是,既然我想测量每一步的吞吐量和延迟,是否有办法在其自身的顶点上拆分每个操作符?在本例中:有一个节点用于groupBy-Aggregation,另一个节点用于筛选函数(endsWith)。
提前感谢!:)
1条答案
按热度按时间dzhpxtsq1#
您可以使用
但是,您应该预料到这会降低性能,可能会显著降低性能。请参阅Flink disableOperatorChaining Performance impact以了解更多信息。