我正在搜索真实世界中的歪斜连接示例—查询和数据集—以运行一些实验。到目前为止,我发现:在数据库社区中广泛使用的tpc-ds数据集。它在颜色和区域上是倾斜的。我简单地检查了基准测试附带的查询,但是找不到显示连接中的倾斜的连接查询。我自己创建了一个包含两个连接的查询,其中第二个连接是倾斜的,但这不是一个非常自然的用例。这个博客提到了cdn访问日志中的歪斜连接,但出于隐私原因,我想不会共享数据集。还有其他的例子吗?也许spark的一些用户在连接两个数据集时发现了分区大小的偏差。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!