如何匹配两组大数据？

pkbketx9 于 2021-07-13 发布在 Hadoop

关注(0)|答案(0)|浏览(191)

匹配两组大数据最快的方法是什么？这方面的硬件和软件要求是什么？
我有两个数据集a和b（b1，b2，b3等等），假设a是100亿行，另一个b是1000个文件，每个文件包含100万行。
我的要求是将b的每个文件都设置为a，以便在存在一个值时匹配。1000+++文件中只有一个值存在。
搜索不匹配比搜索匹配快吗？我的要求是尽快匹配数据。最好能在几秒钟内完成。
我的方法是创建集合a的bloom过滤器，然后搜索其中的每个b子集。我的问题是，是否有可能一次匹配一个完整的文件，而不是根据bloom过滤器搜索每个文件的每个条目。
我读过bloom过滤器总是给出真正的负数，而且它的计算强度比搜索匹配项要低。
还有一种方法可以在ssd而不是内存中创建缓冲bloom过滤器或级联过滤器。在大数据存储方面，它将更加高效。我读过相关的文章，但找不到任何源代码。

hadoop bigdata bloom-filter

来源：https://stackoverflow.com/questions/66807657/how-to-match-two-sets-of-big-data

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

如何匹配两组大数据？

暂无答案！

相关问题

热门标签

最新问答