我很好奇gcp的数据融合的内部工作流程

6ovsh4lw  于 2021-05-19  发布在  Spark
关注(0)|答案(1)|浏览(562)

我在开发者和企业模式下使用了google云平台的datafusion产品。
对于开发人员模式,没有dataproc设置(主节点、工作节点)。
对于企业模式,有一个dataproc设置值(主节点、工作节点)
我很好奇的是企业模式。
我可以为主节点和工作节点设置值。
详细

Enterprise

- Dataproc
- Master.
- Number of masters: 1
- Master Cores: 2vcpu
- Master Memory (GB): 4GB
- Master Disk Size (GB): 1TB
- Worker
- Number of Workers: 2
- Worker Cores: 4vcpu
- Worker Memory (GB): 16GB
- Worker Disk Size (GB): 1.5TB
- VM
- Driver.
- CPU : 2
- Memory: 4GB (=4096MB)
- Executor
- CPU : 2
- Memory : 8GB (=8192MB)

设置如上所示。
当我创建数据管道时,我可以看到每个vm都被创建了。
我非常好奇vm的驱动程序、执行器和dataproc的工作节点之间的关系。
实际上,datafusion为dataproc提供了一个设置。当我将来创建一个数据管道时,它运行vm示例作为dataproc的设置。我想知道vm示例的设置值(driver,executor)和dataproc的值之间的关系。

wgxvkvu9

wgxvkvu91#

dataproc允许用户创建集群,而clouddatafusion中的驱动程序和执行程序设置允许用户调整管道运行将使用多少集群资源。
因此,创建一个包含3个工作进程和1个主进程的dataproc集群将创建4个vm,其中包含dataproc配置中指定的内存和cpu,而设置驱动程序/执行程序cpu和内存则指示在集群上运行的数据管道作业将使用多少主/工作进程vm的cpu和内存资源。

相关问题