在一篇关于mapreduce的研究论文中,有一句话:我们使用带有用户指定的map和reduce操作的函数模型,使我们能够轻松地并行化大型计算,并将重新执行作为容错的主要机制。我不明白重执行到底意味着什么,以及重执行如何成为容错的主要机制?
sqougxex1#
我想给出一个大概的答案。故障或失效原因:节点失败/无法访问换句话说,这意味着在该节点中运行的所有任务都失败/无法访问。任务失败/无法访问节点内所有任务正在处理的数据将保存在本地,当节点失败或无法访问(到其他节点或主节点)时,则无法检索迄今为止处理的数据。因此,显而易见的解决方案是在同一节点或其他一些节点上重新启动这些任务(节点故障)。这使得重新执行成为容错的主要机制。为容错而重新执行的另一个类比是数据丢失的冗余。数据被复制以避免存储设备丢失数据。类似地,重新执行任务以使应用程序具有容错性。
1条答案
按热度按时间sqougxex1#
我想给出一个大概的答案。
故障或失效原因:
节点失败/无法访问换句话说,这意味着在该节点中运行的所有任务都失败/无法访问。
任务失败/无法访问节点内所有任务正在处理的数据将保存在本地,当节点失败或无法访问(到其他节点或主节点)时,则无法检索迄今为止处理的数据。因此,显而易见的解决方案是在同一节点或其他一些节点上重新启动这些任务(节点故障)。这使得重新执行成为容错的主要机制。
为容错而重新执行的另一个类比是数据丢失的冗余。数据被复制以避免存储设备丢失数据。类似地,重新执行任务以使应用程序具有容错性。