我必须设计一个从twitter(流媒体)读取传入数据的设置。我决定使用apachekafka和spark流来进行实时处理。需要在 Jmeter 板中显示分析。现在,作为一个新手是这个领域,我假设的数据速率将是10 mb/秒最大。我已经决定使用1台机器Kafka的12核和16 gb内存*Zookeeper也将在同一台机器上。现在,我对spark感到困惑,它只能执行流作业分析。之后,分析的数据输出被推送到数据库和 Jmeter 板。混乱列表:
我应该在hadoop集群或本地文件系统上运行spark吗?
spark的独立模式能满足我的要求吗?
在这种情况下,我的方法是合适的还是最好的?
1条答案
按热度按时间kzipqqlq1#
尝试回答:
我应该在hadoop集群或本地文件系统上运行spark吗?
建议使用hdfs,这样可以节省更多的数据,保证高可用性。
spark的独立模式能满足我的要求吗?
独立模式是最容易设置的,如果您只运行spark,它将提供与其他集群管理器几乎相同的功能。
yarn允许您在运行于yarn上的所有框架之间动态地共享和集中配置相同的集群资源池。
yarn不需要运行单独的zookeeper故障转移控制器。
yarn可能会预装在许多hadoop发行版中,比如cdhhadoop。所以建议使用
yarn不需要运行单独的zookeeper故障转移控制器。
所以推荐Yarn
有用的链接:
Spark纱doc
spark独立文档
另一个很好的答案
在这种情况下,我的方法是合适的还是最好的?
如果你的数据不超过1000万,我想可以用本地集群来做。本地模式避免了多个节点的乱序。进程之间的洗牌比节点之间的洗牌快。
否则建议使用大于等于3个节点,即真正的hadoop集群。
作为一名初级选手,这是我的理解。我希望艾斯能纠正我。