我想做一个项目,我流一些推特分析他们在Hive,所有这些过程都必须在hdf/nifi完成。项目必须是可扩展的。我在cloudera网站上看到,人们采用了两种不同的流量策略。
1.)获取tweet--->将其放入hdfs--->使用hive进行分析
2.)获取tweets--->用kafka(发布/消费)流--->把它们放到hdfs中--->用hive分析
所以,我的问题是有什么区别?第一种策略是不可伸缩的?你会采取什么策略?谢谢您。
我想做一个项目,我流一些推特分析他们在Hive,所有这些过程都必须在hdf/nifi完成。项目必须是可扩展的。我在cloudera网站上看到,人们采用了两种不同的流量策略。
1.)获取tweet--->将其放入hdfs--->使用hive进行分析
2.)获取tweets--->用kafka(发布/消费)流--->把它们放到hdfs中--->用hive分析
所以,我的问题是有什么区别?第一种策略是不可伸缩的?你会采取什么策略?谢谢您。
1条答案
按热度按时间7z5jn7bk1#
这完全取决于你的维护负担。
hadoop、yarn、kafka和nifi都是需要大量调优和配置的独立服务。除了twitter摄取之外的每个组件都是独立可伸缩的。
您可以将kafka用作hdfs前面的一种缓冲区,以便在登录到任何文件系统之前对tweet进行批处理和处理。此外,您可以稍后将tweet流式传输到elasticsearch或solr中进行搜索,而不是在hadoop中进行批量分析
对于更快的查询,请使用presto、kudu、spark或impala而不是hive