我正在努力学习更多关于大数据的知识,特别是关于利用hadoop和spark的知识。然而,我一直看到这个术语“中间结果”,我不太清楚它指的是什么。
例如,我读到“hadoop将中间结果写入计算机的存储磁盘,而spark尽可能将这些结果保存在内存中。”我假设这是指map reduce之后的结果,但我不太确定。
有人能更详细地介绍一下什么是“中间结果”以及它们在spark和hadoop之间的变化吗?
我正在努力学习更多关于大数据的知识,特别是关于利用hadoop和spark的知识。然而,我一直看到这个术语“中间结果”,我不太清楚它指的是什么。
例如,我读到“hadoop将中间结果写入计算机的存储磁盘,而spark尽可能将这些结果保存在内存中。”我假设这是指map reduce之后的结果,但我不太确定。
有人能更详细地介绍一下什么是“中间结果”以及它们在spark和hadoop之间的变化吗?
1条答案
按热度按时间qyzbxkaa1#
在map阶段和reduce阶段之间,对正在处理的数据执行洗牌和排序操作,这是整个操作的中间步骤