hadoop—加载大型数据集的有效方法

i1icjdpr 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(361)

我正在读一篇关于google的mapreduce白皮书。我想知道如何有效地将gbs的数据传递给mapreduce算法。本文显示了以秒为单位处理tbs数据的统计数据。本文说，为了使它有效地工作，他们减少了网络调用，并尝试在本地磁盘上进行本地写操作。只有reducer函数执行远程调用并写入本地输出文件。现在，当我们在内存中加载gbs的数据以将其传递给map函数时，数据加载器应用程序肯定会耗尽内存。
所以我的问题是，应该使用什么技术来高效地加载数据，并传递给调度器应用程序进行m和r调度，以及计算m个和r个数。
我很可能会从oracle数据库中读取一些数据，然后将其更新回其他一些表中。
白皮书的urlhttp://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en//archive/mapreduce-osdi04.pdf

hadoop mapreduce bigdata

来源：https://stackoverflow.com/questions/18693259/efficient-ways-to-load-large-data-sets

1条答案

按热度按时间

vjrehmav1#

在google的例子中，数据很可能存储在gfs中，gfs是一个分布式文件系统，而map阶段是在兼有gfs存储节点的节点上运行的。通过这种方式，系统主要使用本地磁盘上已有的数据，因此不必通过网络移动大量数据。
还有一篇关于gfs的论文：http://research.google.com/archive/gfs.html

赞(0）回复(0）举报 2021-06-03

我来回答

hadoop—加载大型数据集的有效方法

1条答案

相关问题

热门标签

最新问答