我们在新的emr设置中遇到了无法解释的行为,包括:基于ecs的emr 5.16(3个节点-c4.8xlarge和1个主节点-c4.8xlarge)kafka集群
我们运行一个简单的流作业,它从一个kafka主题中读取数据,生成一些逻辑,然后写回kafka主题(使用checkpointlocation作为hdfs路径)
“问题”是,在ganglia中,我可以看到从驱动程序(在一个从服务器上运行)到主服务器的网络流量不断增加。
我可以从一个简单的pcap文件中看到,流量属于50010(hadoop数据传输),这里我处于死胡同。
需要帮忙,谢谢!
1条答案
按热度按时间kd3sttzy1#
经过一番调查和查看流量的有效载荷后,是日志发送给了主人!它被传送到spark history server并位于hdfs中。。
我只需要将这个配置添加到我的spark提交
--conf spark.eventLog.enabled=false