首先,我在想用什么把事件放到hadoop中,在那里它们会被存储起来,并定期对它们进行分析(可能使用ooozie来安排定期分析)kafka或flume,并决定kafka可能是一个更好的解决方案,因为我们还有一个组件来处理事件,所以这样,批处理和事件处理组件都以相同的方式获取数据。
但我要知道,我正在寻找一些具体的建议,如何将代理中的数据传输到hadoop。
我发现Flume可以和Kafka结合使用
Flume-包含Kafka源(消费者)和Flume(生产者)
在同一页和Kafka文献中也发现了一种叫做加缪的东西
加缪-linkedin的Kafka=>hdfs管道。这个用于linkedin的所有数据,效果很好。
我很感兴趣的是什么是更好的(更简单,更好的文档化解决方案)来做到这一点?还有,有什么例子或教程如何做到这一点?
我应该在什么时候使用这种变体而不是更简单、更高级的消费者?
如果有比这两个更好的解决方案,我愿意接受建议。
谢谢
2条答案
按热度按时间34gzjxbg1#
您可以使用flume将数据从kafka转储到hdfs。Flume有Kafka源汇。这是一个属性文件更改的问题。下面给出了一个例子。
步骤:
创建Kafka主题
使用kafka console producer编写上述创建的主题
使用以下属性配置flume代理
将上述配置文件另存为example.conf
运行flume代理
数据现在将转储到以下路径下的hdfs位置
eqqqjvef2#
大多数时候,我看到人们用加缪和阿兹卡班
您可以在mate1的github repo上看到它们的camus实现。这不是一个教程,但我认为它可以帮助你
https://github.com/mate1/camus