我可以使用hadoop发行版来代替手动安装吗?

5kgi1eie  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(557)

我计划用大约5台机器实现一个hadoop集群。通过一些背景研究,我了解到为了实现集群,我需要在每台机器上安装hadoop。
早些时候,我计划在每台机器上安装一个linux发行版,然后分别安装hadoop,并将每台机器配置为并行工作。
最近我浏览了一些hadoop发行版,比如cloudera和hortonworks。我的问题是,我应该在每台机器上安装cloudera或hortonworks这样的发行版,还是像前面描述的那样单独安装hadoop?
使用发行版会使我的任务更简单吗?还是需要比纯hadoop安装更多的知识来处理它们?

ezykj2lf

ezykj2lf1#

我强烈建议使用发行版,而不是手动操作。即使第一次使用发行版也会很复杂,因为除了基本的hadoop安装之外,还需要运行许多独立的服务,这取决于您想要什么。
另外,您是否打算让集群大小仅为5台机器?如果是这样,hadoop可能不是适合您的解决方案。您可以在一台服务器上运行所有的主服务器,并拥有一个4节点集群,但这可能不会有那么好的性能。请注意,hdfs的典型冗余是3,因此4个节点几乎不够。如果一台或两台机器宕机,您很容易丢失生产集群中的数据。我个人会推荐至少8个节点和一个或两个主服务器,所以总集群大小为9或10,最好是10。

eqqqjvef

eqqqjvef2#

我也是hadoop的初学者(大约1.5个月),如果您使用自动化的安装方式(cloudera manager for cloudera或ambari for hortonworks),那么使用发行版会非常有帮助。它可以在所有集群上快速安装和部署hadoop和您选择的服务(hive、impala、spark、hue…)。在我看来,主要的缺点是你不能真正优化和个性化你的安装,但第一次它更容易运行一些简单的情况。

相关问题