在hive中分析带有kafka和没有它的推特流

5jdjgkvh 于 2021-05-27 发布在 Hadoop

关注(0)|答案(1)|浏览(473)

我想做一个项目，我流一些推特分析他们在Hive，所有这些过程都必须在hdf/nifi完成。项目必须是可扩展的。我在cloudera网站上看到，人们采用了两种不同的流量策略。
1.）获取tweet--->将其放入hdfs--->使用hive进行分析
2.）获取tweets--->用kafka（发布/消费）流--->把它们放到hdfs中--->用hive分析
所以，我的问题是有什么区别？第一种策略是不可伸缩的？你会采取什么策略？谢谢您。

hadoop streaming apache-kafka apache-nifi tweets

来源：https://stackoverflow.com/questions/60564613/streaming-tweets-with-kafka-and-without-it-to-analyze-in-hive

1条答案

按热度按时间

7z5jn7bk1#

这完全取决于你的维护负担。
hadoop、yarn、kafka和nifi都是需要大量调优和配置的独立服务。除了twitter摄取之外的每个组件都是独立可伸缩的。
您可以将kafka用作hdfs前面的一种缓冲区，以便在登录到任何文件系统之前对tweet进行批处理和处理。此外，您可以稍后将tweet流式传输到elasticsearch或solr中进行搜索，而不是在hadoop中进行批量分析
对于更快的查询，请使用presto、kudu、spark或impala而不是hive

赞(0）回复(0）举报 2021-05-27

我来回答

在hive中分析带有kafka和没有它的推特流

1条答案

相关问题

热门标签

最新问答