用c语言实现排序合并bucket连接++

jmp7cifd  于 2021-06-24  发布在  Hive
关注(0)|答案(0)|浏览(281)

我试图在c++中实现排序合并bucket连接(hive的一个特性)。
对于starter,假设我有100个小文件,每个文件包含1000万行整数,共同表示一列,比如说,一个表的10亿行中的第1列,同样地,还有100个类似的文件表示另一个表的类似列,比如说,第2列。
我想对这两列都进行排序,并且只将这些值写入另一个文件中,其中第1列中的值=第2列中的值。
关键是我不想读取ram中每列超过1000万个整数。
我很乐意合并列,只要它们被排序,但我不知道如何排序整个列,而实际上没有整个列在我的ram中的时间。
我知道这个技术是在hive中实现的,但我对它不太精通,在互联网上找不到任何对我有帮助的文章。
不用说,我想尽可能有效地执行这个操作。
我该怎么处理这个问题?或者说Hive是怎么做到的?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题