使用流作业和kafka增加hdfs流量中的网络负载

qmb5sa22 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(299)

我们在新的emr设置中遇到了无法解释的行为，包括：基于ecs的emr 5.16（3个节点-c4.8xlarge和1个主节点-c4.8xlarge）kafka集群
我们运行一个简单的流作业，它从一个kafka主题中读取数据，生成一些逻辑，然后写回kafka主题（使用checkpointlocation作为hdfs路径）
“问题”是，在ganglia中，我可以看到从驱动程序（在一个从服务器上运行）到主服务器的网络流量不断增加。
我可以从一个简单的pcap文件中看到，流量属于50010（hadoop数据传输），这里我处于死胡同。
需要帮忙，谢谢！

hadoop hdfs apache-kafka apache-spark amazon-emr

来源：https://stackoverflow.com/questions/51921206/increasing-network-load-in-hdfs-traffic-with-stream-jobs-and-kafka

1条答案

按热度按时间

经过一番调查和查看流量的有效载荷后，是日志发送给了主人！它被传送到spark history server并位于hdfs中。。
我只需要将这个配置添加到我的spark提交 --conf spark.eventLog.enabled=false

赞(0）回复(0）举报 2021-05-29

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 6个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 6个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 6个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 6个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 6个月前