我试图理解flume,并参考flume.apache.org上的flume官方页面特别是提到这一节,我对此有点困惑。我们需要在实际的web服务器上运行flume代理吗?还是可以在不同的物理服务器上运行flume代理并从web服务器获取数据?如果以上是正确的,那么flume代理如何从Web服务器日志获取数据?Web服务器如何使其数据可供flume代理使用?有人能帮助理解吗?
sc4hvdpw1#
flume代理必须从源中提取数据,发布到通道,然后通道将数据写入接收器。您可以在本地或远程配置中安装flume代理。但是,请记住,如果您担心的话,将其远程化会给事件处理增加一些网络延迟。您还可以“多路复用”flume代理,使其具有一个远程聚合代理,然后在每个web服务器上具有单独的本地代理。假设flume代理是使用spooldir或exec源本地安装的,它基本上 tail 任何文件或在本地运行该命令。这就是它从日志中获取数据的方式。如果flume代理设置为syslog或tcp源(请参阅网络源上的数据摄取部分),则它可以位于远程计算机上,并且您必须在日志应用程序中建立网络套接字才能将消息发布到其他服务器。这与apachekafka类似。
tail
1条答案
按热度按时间sc4hvdpw1#
flume代理必须从源中提取数据,发布到通道,然后通道将数据写入接收器。
您可以在本地或远程配置中安装flume代理。但是,请记住,如果您担心的话,将其远程化会给事件处理增加一些网络延迟。您还可以“多路复用”flume代理,使其具有一个远程聚合代理,然后在每个web服务器上具有单独的本地代理。
假设flume代理是使用spooldir或exec源本地安装的,它基本上
tail
任何文件或在本地运行该命令。这就是它从日志中获取数据的方式。如果flume代理设置为syslog或tcp源(请参阅网络源上的数据摄取部分),则它可以位于远程计算机上,并且您必须在日志应用程序中建立网络套接字才能将消息发布到其他服务器。这与apachekafka类似。