由于某些原因,我们从旧集群迁移到新集群,但是我们的新集群一开始工作不好,所以我们发现了一些问题并加以解决。
但是在我花在修复上的时间里,一些etl工作了,sql可能会产生一些错误的数据。如何快速比较同一个表中这两个集群的数据?
我试过用getmerge和checksum来找出差异,但是我不确定两个簇的结果是否以相同的方式分开,我认为两个簇可能产生不同数量的数据块,所以每个块中的分裂可能是不同的,
如何比较这两个数据?这两个数据基本相同,但结果有不同的分割量?这两张table很大,我要做很多比较。。。所以。。。
有老板有解决办法吗?
谢谢。
1条答案
按热度按时间zynd9foi1#
是的,您可以创建一个指向其他服务器数据的外部表,这样您就可以从其他服务器查询表。您需要在CREATETABLE语句中指定数据的位置。
只要确保存在访问其他服务器hdf的权限,还要确保权限是一致的(即kerberos领域是可信的),并且staging directory设置指向数据的位置
它可以像