就目前的情况来看,这个问题并不适合我们的问答形式。我们希望答案能得到事实、参考资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或广泛讨论。如果您觉得这个问题可以改进,并可能重新打开,请访问帮助中心寻求指导。
9年前关门了。
有没有人有机会同时做这两件事?我需要建立一个框架来移动数据。基本上,我们有clickstream数据作为文本文件。这些数据需要从应用服务器移动到hdfs,然后在存档后再移动到s3。
我需要帮助在Flume和抄写器之间做出选择。在可管理性、设置和定制方面,哪一个更好?
1条答案
按热度按时间vyu0f0g11#
查看此处发布的答案
我将引用答案:
flume允许您从一个中心点配置flume安装,而无需ssh到每台机器,更新一个配置变量并重新启动一两个守护进程。使用flume jar,您可以从网络中的任何命令行启动、停止、创建、删除和重新配置运行flume的任何计算机上的逻辑节点。
Flume也有集中的活性监测。我们听过一些关于scribe进程无声地失败的故事,但是在scribe安装的其余部分在不断增加的负载下开始吱吱作响之前,已经有好几天没有被发现了。flume允许您在一个地方查看所有逻辑节点的运行状况(请注意,这与机器活动性监视不同;通常,当进程可能失败时,机器会一直运行)。
flume支持三种不同类型的可靠性保证,允许您在资源使用和可靠性之间进行权衡。特别是,flume支持完全确认的可靠性,并保证所有事件最终都将通过事件流。
flume也是真正可扩展的—编写自己的源或接收器并将大多数系统与flume集成起来非常容易。如果自己滚动是不切实际的,那么让应用程序以flume可以理解的形式输出事件通常是非常简单的(例如,flume可以运行unix进程,因此如果您可以使用shell脚本获取数据,那么您就非常棒了)。
这并不是一个使用flume的好处的详尽列表-我还没有涉及使用装饰器进行轻量级转换或元数据提取、配置语言、在一个flume进程中运行多个逻辑节点的能力、hdfs中自动生成和滚动日志文件。。。我们期待着与大家分享更多关于flume的信息。
对我来说,关键的区别在于cloudera积极支持flume。虽然我通常相信facebook能够维护优秀的开源项目,但cloudera的业务是围绕着为这样的工具提供支持而建立的,所以我相信flume将长期得到更好的支持。我想尽量减少思考这个问题的时间。也就是说,到目前为止,我遇到了很多恼人的问题,flume要么在抽象方面有点复杂,要么在实现方面有缺陷,正如您可能从1.0以前的技术中所期望的那样。如果asana还没有测试版,我可能会选择scribe