如何比较大数据中的复制

8ftvxx2r  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(309)

问题陈述-
复制是工业中常见的任务,如果复制的数据库与原始数据库具有相同的数据,则验证复制同样重要。
示例-
我有数据库d1和测试的目的,我复制数据库d1到数据库d2。
复制完成后,我想验证两个数据库是否相同,这可以通过行级比较来完成,但是对于数据长度可能以TB为单位的大型数据库来说,这是最糟糕的解决方案。
这里的Maven能为这种实时挑战提供解决方案或任何提示吗?

pxy2qtax

pxy2qtax1#

这里的Maven能提供解决方案吗?
每个数据库以不同的方式解决问题。所使用的方法取决于数据库的体系结构。示例:
Cassandra架构+一个类似复制的过程,
很少有“东西”使用梅克尔树。例如,可以将复制视为“git clone”命令。将创建新的复制副本。git体系结构使用markle树来连接它的“内部文件”,所以它是自我验证的解决方案。比特币区块链也是如此,
当需要“实时复制”或者更好的分布式计算时,可以使用更高级的解决方案,比如paxos。
(…)对这种实时挑战有什么提示吗?
我不确定您是否想问一下挑战是什么,所以以防万一:将一个数据库d1复制到d2很难比较,因为数据量很大,但最重要的是,因为d1在真实场景中是一个“活的”数据库,它是不断变化的。

相关问题