spark流媒体需要kafka的hdfs吗

rwqw0loc 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(474)

我必须设计一个从twitter（流媒体）读取传入数据的设置。我决定使用apachekafka和spark流来进行实时处理。需要在 Jmeter 板中显示分析。现在，作为一个新手是这个领域，我假设的数据速率将是10 mb/秒最大。我已经决定使用1台机器Kafka的12核和16 gb内存*Zookeeper也将在同一台机器上。现在，我对spark感到困惑，它只能执行流作业分析。之后，分析的数据输出被推送到数据库和 Jmeter 板。混乱列表：
我应该在hadoop集群或本地文件系统上运行spark吗？
spark的独立模式能满足我的要求吗？
在这种情况下，我的方法是合适的还是最好的？

apache-kafka apache-spark pyspark spark-streaming

来源：https://stackoverflow.com/questions/62933448/does-spark-streaming-needs-hdfs-with-kafka

1条答案

按热度按时间

kzipqqlq1#

尝试回答：
我应该在hadoop集群或本地文件系统上运行spark吗？
建议使用hdfs，这样可以节省更多的数据，保证高可用性。
spark的独立模式能满足我的要求吗？
独立模式是最容易设置的，如果您只运行spark，它将提供与其他集群管理器几乎相同的功能。
yarn允许您在运行于yarn上的所有框架之间动态地共享和集中配置相同的集群资源池。
yarn不需要运行单独的zookeeper故障转移控制器。
yarn可能会预装在许多hadoop发行版中，比如cdhhadoop。所以建议使用
yarn不需要运行单独的zookeeper故障转移控制器。
所以推荐Yarn
有用的链接：
Spark纱doc
spark独立文档
另一个很好的答案
在这种情况下，我的方法是合适的还是最好的？
如果你的数据不超过1000万，我想可以用本地集群来做。本地模式避免了多个节点的乱序。进程之间的洗牌比节点之间的洗牌快。
否则建议使用大于等于3个节点，即真正的hadoop集群。
作为一名初级选手，这是我的理解。我希望艾斯能纠正我。

展开查看全部

赞(0）回复(0）举报 2021-05-27

我来回答

spark流媒体需要kafka的hdfs吗

1条答案

相关问题

热门标签

最新问答