如何匹配两组大数据?

pkbketx9  于 2021-07-13  发布在  Hadoop
关注(0)|答案(0)|浏览(164)

匹配两组大数据最快的方法是什么?这方面的硬件和软件要求是什么?
我有两个数据集a和b(b1,b2,b3等等),假设a是100亿行,另一个b是1000个文件,每个文件包含100万行。
我的要求是将b的每个文件都设置为a,以便在存在一个值时匹配。1000+++文件中只有一个值存在。
搜索不匹配比搜索匹配快吗?我的要求是尽快匹配数据。最好能在几秒钟内完成。
我的方法是创建集合a的bloom过滤器,然后搜索其中的每个b子集。我的问题是,是否有可能一次匹配一个完整的文件,而不是根据bloom过滤器搜索每个文件的每个条目。
我读过bloom过滤器总是给出真正的负数,而且它的计算强度比搜索匹配项要低。
还有一种方法可以在ssd而不是内存中创建缓冲bloom过滤器或级联过滤器。在大数据存储方面,它将更加高效。我读过相关的文章,但找不到任何源代码。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题