我正在使用一个flink流应用程序,输入源作为nfs文件系统,sink作为kafka生产者。
我使用的是continousmonitoring函数,它转发不支持parllelism的文件分割,以及带有parllelism的continousfileoperator。
我们拥有的初始数据是4tb的数据。对于初始传输,continousmonitor函数需要很长时间来准备状态,这是正常的,但是检查点在完成之前会一直过期。我已经把checkpointTimeout改为3小时,仍然失败。
我能知道什么是检查点状态吗?它和数据的大小有关系吗?
我能知道我该怎么计算这个州的规模吗?
对于大数据的初始运行,有没有更好的方法?
1条答案
按热度按时间9q78igpj1#
我强烈怀疑性能不佳的原因是continousmonitoring函数的单个示例处理了大量文件。
与其尝试用管道的一个示例来处理所有这些,我会尝试使用许多独立的管道,每个管道都有一个处理部分文件的源代码。这可以在不同的作业中完成,但不一定是这样:您可以有一个包含许多源和汇的作业。