我们使用flink1.9.0datasetapi从amazons3存储桶读取csv文件。大多数情况下都面临连接池超时。以下是flink级别的配置
一次从s3读取19708个对象,因为我们需要在整个数据集上应用逻辑。假设有20个源文件夹,例如(aaa,bbb,ccc)和多个子文件夹(aaa/4may2020/../../1.csv,aaa/4may2020/../../2.csv,aaa/3may2020/../../1.csv,aaa/3may2020/../../2.csv…),在调用readcsv之前,逻辑扫描文件夹,选择一个只有最新日期的文件夹并传递给read。对于读取操作,我们使用并行度作为“5”。但是当执行图形成时,所有20个源都聚集在一起。
在kube aws上运行,大约有10个任务管理器托管在“m5.4x大型机器”下。任务管理器docker分配有“8”个内核和“50gb”内存。
以下是试图解决这个问题,但没有运气到目前为止。真的需要一些指点和帮助来解决这个问题
启用了flink重试机制,并将故障转移作为“区域”,有时会进行重试。但即使重试,它也会断断续续地失败。
根据aws站点重新访问core-site.xml:fs.s3a.threads。max:3000,fs.s3a.连接。maximum:4500 also 有人能帮我回答以下问题吗
有没有办法检查readcsv打开的http连接
已关闭
任何了解dataset readcsv如何运行的指针都会有所帮助。
有没有办法在读取之前引入等待机制?
有没有更好的方法来解决这个问题
暂无答案!
目前还没有任何答案,快来回答吧!