google云点击部署hadoop

inb24sb2 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(468)

为什么googlecloud点击部署hadoop工作流需要选择本地持久性磁盘的大小，即使您计划将hadoop连接器用于云存储？默认大小为500 gb。。我在想，如果它真的需要一些磁盘，它的大小应该小得多。在googlecloud中将cloud storage connector与hadoop结合使用时，是否有建议的持久磁盘大小？
在google云平台上部署apachehadoop
apachehadoop框架支持跨计算机集群的大型数据集的分布式处理。
hadoop将部署在单个集群中。默认部署创建1个主vm示例和2个工作vm，每个vm有4个vcpu、15gb内存和500gb磁盘。创建一个临时部署协调器vm示例来管理集群设置。
hadoop集群使用云存储桶作为默认文件系统，通过google云存储连接器进行访问。访问云存储浏览器来查找或创建一个可以在hadoop部署中使用的bucket。
google计算引擎上的apache hadoop单击部署apache hadoop apache hadoop zone us-central1-a worker node count
云存储bucket选择bucket hadoop版本1.2.1主节点磁盘类型标准持久性磁盘主节点磁盘大小（gb）
工作节点磁盘类型标准永久磁盘工作节点磁盘大小（gb）”

hadoop google-cloud-storage google-cloud-platform google-hadoop

来源：https://stackoverflow.com/questions/27089781/google-cloud-click-to-deploy-hadoop

1条答案

按热度按时间

v64noz0r1#

持久性磁盘（pds）的三大用途是：
日志，包括守护进程和作业（或Yarn中的容器）
当调试日志记录打开时，这些可能会变得相当大，并且可能导致每秒写入很多次
mapreduce随机播放
它们可能很大，但从更高的iops和吞吐量中获益更多
hdfs（图像和数据）
由于目录的布局，持久性磁盘还将用于其他项目，如作业数据（jar、随应用程序分发的辅助数据等），但这些也可以很容易地使用bootpd。
更大的持久性磁盘几乎总是更好的，这是因为gce可以根据磁盘大小扩展iops和吞吐量[1]。500g可能是开始分析应用程序和使用情况的一个很好的起点。如果您不使用hdfs，发现您的应用程序没有太多日志记录，并且在洗牌时不会溢出到磁盘，那么较小的磁盘可能可以很好地工作。
如果您发现实际上不想要或不需要任何持久性磁盘，那么bdutil[2]也作为命令行脚本存在，它可以创建具有更多可配置性和可定制性的集群。
https://cloud.google.com/developers/articles/compute-engine-disks-price-performance-and-persistence/
https://cloud.google.com/hadoop/

赞(0）回复(0）举报 2021-05-30

我来回答

google云点击部署hadoop

1条答案

相关问题

热门标签

最新问答