我正在阅读一篇与hadoop相关的ibm文章,列出的要点之一是hadoop分布式文件系统有很多目标。以下是一些最值得注意的:处理逻辑接近数据,而不是数据接近处理逻辑对我来说,这听起来像是一场话剧。接近数据的处理逻辑和接近处理逻辑的数据之间有什么区别吗。
xriantvc1#
有很大的不同。使处理接近数据意味着在数据实际所在的服务器上运行业务逻辑。将此与使数据接近处理相比较,在处理过程中,您可能查询数据库,并将其与其他系统连接。在这种情况下,数据通过网络发送。有人认为,在网络传输中,发送代码和库的开销要比提取千兆字节和兆字节的数据要少得多。在hadoop2中,这是由yarn处理的,在yarn上mapreduce或spark等进程与datanode进程并行地从进程容器运行。
1条答案
按热度按时间xriantvc1#
有很大的不同。
使处理接近数据意味着在数据实际所在的服务器上运行业务逻辑。
将此与使数据接近处理相比较,在处理过程中,您可能查询数据库,并将其与其他系统连接。在这种情况下,数据通过网络发送。
有人认为,在网络传输中,发送代码和库的开销要比提取千兆字节和兆字节的数据要少得多。
在hadoop2中,这是由yarn处理的,在yarn上mapreduce或spark等进程与datanode进程并行地从进程容器运行。