为什么googlecloud点击部署hadoop工作流需要选择本地持久性磁盘的大小,即使您计划将hadoop连接器用于云存储?默认大小为500 gb。。我在想,如果它真的需要一些磁盘,它的大小应该小得多。在googlecloud中将cloud storage connector与hadoop结合使用时,是否有建议的持久磁盘大小?
在google云平台上部署apachehadoop
apachehadoop框架支持跨计算机集群的大型数据集的分布式处理。
hadoop将部署在单个集群中。默认部署创建1个主vm示例和2个工作vm,每个vm有4个vcpu、15gb内存和500gb磁盘。创建一个临时部署协调器vm示例来管理集群设置。
hadoop集群使用云存储桶作为默认文件系统,通过google云存储连接器进行访问。访问云存储浏览器来查找或创建一个可以在hadoop部署中使用的bucket。
google计算引擎上的apache hadoop单击部署apache hadoop apache hadoop zone us-central1-a worker node count
云存储bucket选择bucket hadoop版本1.2.1主节点磁盘类型标准持久性磁盘主节点磁盘大小(gb)
工作节点磁盘类型标准永久磁盘工作节点磁盘大小(gb)”
1条答案
按热度按时间v64noz0r1#
持久性磁盘(pds)的三大用途是:
日志,包括守护进程和作业(或Yarn中的容器)
当调试日志记录打开时,这些可能会变得相当大,并且可能导致每秒写入很多次
mapreduce随机播放
它们可能很大,但从更高的iops和吞吐量中获益更多
hdfs(图像和数据)
由于目录的布局,持久性磁盘还将用于其他项目,如作业数据(jar、随应用程序分发的辅助数据等),但这些也可以很容易地使用bootpd。
更大的持久性磁盘几乎总是更好的,这是因为gce可以根据磁盘大小扩展iops和吞吐量[1]。500g可能是开始分析应用程序和使用情况的一个很好的起点。如果您不使用hdfs,发现您的应用程序没有太多日志记录,并且在洗牌时不会溢出到磁盘,那么较小的磁盘可能可以很好地工作。
如果您发现实际上不想要或不需要任何持久性磁盘,那么bdutil[2]也作为命令行脚本存在,它可以创建具有更多可配置性和可定制性的集群。
https://cloud.google.com/developers/articles/compute-engine-disks-price-performance-and-persistence/
https://cloud.google.com/hadoop/