使用流作业和kafka增加hdfs流量中的网络负载

qmb5sa22  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(299)

我们在新的emr设置中遇到了无法解释的行为,包括:基于ecs的emr 5.16(3个节点-c4.8xlarge和1个主节点-c4.8xlarge)kafka集群
我们运行一个简单的流作业,它从一个kafka主题中读取数据,生成一些逻辑,然后写回kafka主题(使用checkpointlocation作为hdfs路径)
“问题”是,在ganglia中,我可以看到从驱动程序(在一个从服务器上运行)到主服务器的网络流量不断增加。
我可以从一个简单的pcap文件中看到,流量属于50010(hadoop数据传输),这里我处于死胡同。
需要帮忙,谢谢!

kd3sttzy

kd3sttzy1#

经过一番调查和查看流量的有效载荷后,是日志发送给了主人!它被传送到spark history server并位于hdfs中。。
我只需要将这个配置添加到我的spark提交 --conf spark.eventLog.enabled=false

相关问题