如何在hadoop中使用flume捕获网络流量而不使用wireshark?

pgx2nnw8  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(496)

如何在hadoop中使用just flume创建包含网络包的pcap文件?

omtl5h9j

omtl5h9j1#

您可以使用apachemetron来实现这一点。
它不使用flume,而是kafka+storm,并将事件索引到elasticsearch/solr中。
您也可以使用apachenifi,它比flume imo更好。
如果您只是想要flume,那么您需要在运行flume代理的服务器上生成pcap文件,然后只需配置该代理即可相应地设置源文件目录、flume通道和hdfs接收器。

gxwragnw

gxwragnw2#

答案可能太迟了,但那几乎是去年我做同样事情的时候。1在flume conf中,define exec type as source,command是调用shell脚本,tshark(wireshark w/o gui)command with-t fields-e tcp.flags-e ip.src-e ip.dst(根据需要多个字段)2。定义sink,类型为hdfs,并相应地放置hdfs.path。Kafka是可选的,如果你真的需要它来收集多个源,然后把卡法作为接收器。三。它为我工作得很好,但数据包信息保存为结构化格式,可以是csv,而不是二进制pcap文件。最好进一步聚合到会话级别,或者进一步分析,不是吗?

相关问题