我正在使用spark graphx构建wifi关系图。顶点是用户id。如果两个用户连接了同一个wifi,则边为真
现在我有一个巨大的rdd:rdd[(u,v)]。rdd的关键是wifi id,值是连接了这个wifi的所有用户的集合(最大的wifi有5万用户。最小的wifi有3个用户。总用户数为10000000。所有wifi为2000000)
我必须建立一个边缘集,如果两个用户连接了同一个wifi。
现在我在spark中使用笛卡尔坐标,但是速度太慢(可能几个星期),占用的内存太多。
我该怎么解决?我非常感谢!
暂无答案!
目前还没有任何答案,快来回答吧!