导致扭曲联接的数据集

bis0qfac  于 2021-07-13  发布在  Spark
关注(0)|答案(0)|浏览(217)

我正在搜索真实世界中的歪斜连接示例—查询和数据集—以运行一些实验。到目前为止,我发现:
在数据库社区中广泛使用的tpc-ds数据集。它在颜色和区域上是倾斜的。我简单地检查了基准测试附带的查询,但是找不到显示连接中的倾斜的连接查询。我自己创建了一个包含两个连接的查询,其中第二个连接是倾斜的,但这不是一个非常自然的用例。
这个博客提到了cdn访问日志中的歪斜连接,但出于隐私原因,我想不会共享数据集。
还有其他的例子吗?也许spark的一些用户在连接两个数据集时发现了分区大小的偏差。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题