目前,hadoop通过将任务分配给包含数据或靠近包含数据的节点(例如,同一机架)来实现数据局部性。然而,我想知道是否同样的概念可以应用于云计算中,在云计算中hadoop被部署在一组虚拟机上,因为关于物理层的信息(例如,哪些物理机当前托管这些vm)可能不可用。
snz8szmq1#
在大多数云环境中,您完全失去了hadoop的数据局部性优势,因为存储通常是通过网络连接到vm的。hadoop有一些虚拟扩展,允许指定共享相同物理基础设施(即存储和计算)的虚拟主机,这样hadoop就可以“虚拟感知”底层硬件——但这些往往只存在于1)prem私有云或(更可能)2)hadoop paas环境中。
1条答案
按热度按时间snz8szmq1#
在大多数云环境中,您完全失去了hadoop的数据局部性优势,因为存储通常是通过网络连接到vm的。
hadoop有一些虚拟扩展,允许指定共享相同物理基础设施(即存储和计算)的虚拟主机,这样hadoop就可以“虚拟感知”底层硬件——但这些往往只存在于1)prem私有云或(更可能)2)hadoop paas环境中。