因此,如果我使用partition by来保存spark表中的数据,我们知道哪个分区是我们的数据(比如国家名称和州),所以当我们写where子句时,通过提到国家名称和州,它将从那里去获取数据
所以这样它限制了访问并直接搜索关键字,但是如果我们想做bucketing作为分区,那么对于惟一值来说就太多了
因此,我们将使用bucket的数量,后跟列名。
但是,当我们想从bucked数据中获取数据时,成本不会很高,因为我们不知道数据的实际位置,它最终会遍历整个bucket区域
请解释一下
因此,如果我使用partition by来保存spark表中的数据,我们知道哪个分区是我们的数据(比如国家名称和州),所以当我们写where子句时,通过提到国家名称和州,它将从那里去获取数据
所以这样它限制了访问并直接搜索关键字,但是如果我们想做bucketing作为分区,那么对于惟一值来说就太多了
因此,我们将使用bucket的数量,后跟列名。
但是,当我们想从bucked数据中获取数据时,成本不会很高,因为我们不知道数据的实际位置,它最终会遍历整个bucket区域
请解释一下
暂无答案!
目前还没有任何答案,快来回答吧!