我有一个图表,大约75%的连通性来自一个节点
e、 g.如果所有节点的度数之和为100,则该节点的度数为75。
经过多次操作,该节点存在大量的重复边。
假设1是这种节点
1,2
1,2
1,2
1,2
1,2
1,2
1,3
1,3
1,3
但是,它有太多重复的键来获取distinct()边。在使用distinct()之前,我尝试过重新分区,但仍然无法使用太多的重复键,现在写入磁盘,然后使用distinct()解决了这个问题。
有没有更好的方法来处理这种极端倾斜的问题?
我有一个图表,大约75%的连通性来自一个节点
e、 g.如果所有节点的度数之和为100,则该节点的度数为75。
经过多次操作,该节点存在大量的重复边。
假设1是这种节点
1,2
1,2
1,2
1,2
1,2
1,2
1,3
1,3
1,3
但是,它有太多重复的键来获取distinct()边。在使用distinct()之前,我尝试过重新分区,但仍然无法使用太多的重复键,现在写入磁盘,然后使用distinct()解决了这个问题。
有没有更好的方法来处理这种极端倾斜的问题?
暂无答案!
目前还没有任何答案,快来回答吧!