如何在hadoop中使用just flume创建包含网络包的pcap文件?
omtl5h9j1#
您可以使用apachemetron来实现这一点。它不使用flume,而是kafka+storm,并将事件索引到elasticsearch/solr中。您也可以使用apachenifi,它比flume imo更好。如果您只是想要flume,那么您需要在运行flume代理的服务器上生成pcap文件,然后只需配置该代理即可相应地设置源文件目录、flume通道和hdfs接收器。
gxwragnw2#
答案可能太迟了,但那几乎是去年我做同样事情的时候。1在flume conf中,define exec type as source,command是调用shell脚本,tshark(wireshark w/o gui)command with-t fields-e tcp.flags-e ip.src-e ip.dst(根据需要多个字段)2。定义sink,类型为hdfs,并相应地放置hdfs.path。Kafka是可选的,如果你真的需要它来收集多个源,然后把卡法作为接收器。三。它为我工作得很好,但数据包信息保存为结构化格式,可以是csv,而不是二进制pcap文件。最好进一步聚合到会话级别,或者进一步分析,不是吗?
2条答案
按热度按时间omtl5h9j1#
您可以使用apachemetron来实现这一点。
它不使用flume,而是kafka+storm,并将事件索引到elasticsearch/solr中。
您也可以使用apachenifi,它比flume imo更好。
如果您只是想要flume,那么您需要在运行flume代理的服务器上生成pcap文件,然后只需配置该代理即可相应地设置源文件目录、flume通道和hdfs接收器。
gxwragnw2#
答案可能太迟了,但那几乎是去年我做同样事情的时候。1在flume conf中,define exec type as source,command是调用shell脚本,tshark(wireshark w/o gui)command with-t fields-e tcp.flags-e ip.src-e ip.dst(根据需要多个字段)2。定义sink,类型为hdfs,并相应地放置hdfs.path。Kafka是可选的,如果你真的需要它来收集多个源,然后把卡法作为接收器。三。它为我工作得很好,但数据包信息保存为结构化格式,可以是csv,而不是二进制pcap文件。最好进一步聚合到会话级别,或者进一步分析,不是吗?