用c语言实现排序合并bucket连接++

jmp7cifd 于 2021-06-24 发布在 Hive

关注(0)|答案(0)|浏览(292)

我试图在c++中实现排序合并bucket连接（hive的一个特性）。
对于starter，假设我有100个小文件，每个文件包含1000万行整数，共同表示一列，比如说，一个表的10亿行中的第1列，同样地，还有100个类似的文件表示另一个表的类似列，比如说，第2列。
我想对这两列都进行排序，并且只将这些值写入另一个文件中，其中第1列中的值=第2列中的值。
关键是我不想读取ram中每列超过1000万个整数。
我很乐意合并列，只要它们被排序，但我不知道如何排序整个列，而实际上没有整个列在我的ram中的时间。
我知道这个技术是在hive中实现的，但我对它不太精通，在互联网上找不到任何对我有帮助的文章。
不用说，我想尽可能有效地执行这个操作。
我该怎么处理这个问题？或者说Hive是怎么做到的？

Hive Join c++bigdata

来源：https://stackoverflow.com/questions/62435002/implement-sort-merge-bucket-join-in-c

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

用c语言实现排序合并bucket连接++

暂无答案！

相关问题

热门标签

最新问答