hadoop—加载大型数据集的有效方法

i1icjdpr  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(361)

我正在读一篇关于google的mapreduce白皮书。我想知道如何有效地将gbs的数据传递给mapreduce算法。本文显示了以秒为单位处理tbs数据的统计数据。本文说,为了使它有效地工作,他们减少了网络调用,并尝试在本地磁盘上进行本地写操作。只有reducer函数执行远程调用并写入本地输出文件。现在,当我们在内存中加载gbs的数据以将其传递给map函数时,数据加载器应用程序肯定会耗尽内存。
所以我的问题是,应该使用什么技术来高效地加载数据,并传递给调度器应用程序进行m和r调度,以及计算m个和r个数。
我很可能会从oracle数据库中读取一些数据,然后将其更新回其他一些表中。
白皮书的urlhttp://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en//archive/mapreduce-osdi04.pdf

vjrehmav

vjrehmav1#

在google的例子中,数据很可能存储在gfs中,gfs是一个分布式文件系统,而map阶段是在兼有gfs存储节点的节点上运行的。通过这种方式,系统主要使用本地磁盘上已有的数据,因此不必通过网络移动大量数据。
还有一篇关于gfs的论文:http://research.google.com/archive/gfs.html

相关问题