每当一个新文件到达一个特定的文件夹时,我就试图从一个远程机器把文件拿到我的hdfs中。我在flume中遇到了spool-dir的概念,如果spool-dir在运行flume代理的同一台机器中,它就可以正常工作。有什么方法可以在远程机器中配置spool dir吗??请帮忙。
ipakzgxi1#
您可能知道flume可以生成多个示例,也就是说,您可以安装多个flume示例在它们之间传递数据。所以回答你的问题:不,flume不能访问远程spool目录。但是您可以安装两个代理,一个在具有spool目录的计算机上,另一个在hadoop节点上。第一个代理将从spool读取数据,并通过avrorpc将其传递给第二个代理,后者将数据刷新到hdfs。这是一个简单的设置,只需要几行配置。
1条答案
按热度按时间ipakzgxi1#
您可能知道flume可以生成多个示例,也就是说,您可以安装多个flume示例在它们之间传递数据。
所以回答你的问题:不,flume不能访问远程spool目录。但是您可以安装两个代理,一个在具有spool目录的计算机上,另一个在hadoop节点上。
第一个代理将从spool读取数据,并通过avrorpc将其传递给第二个代理,后者将数据刷新到hdfs。
这是一个简单的设置,只需要几行配置。