我有一个带列的sparkDataframe id
以及 hashes
,其中列 hashes
包含 Seq
长度整数值 n
. 例子:
+----+--------------------+
+ id| hashes|
+----+--------------------+
|0 | [1, 2, 3, 4, 5]|
|1 | [1, 5, 3, 7, 9]|
|2 | [9, 3, 6, 8, 0]|
+-------------------------+
我想得到一个Dataframe,其中包含数组所在的所有行 hashes
至少在一个位置上匹配。更正式地说,我想要一个带有附加列的Dataframe matches
每排都是这样 r
包含 Seq
的 id
一排排的 hashes[r][i] == hashes[k][i]
与 k
至少有一个值的任何其他行 i
.
对于我的示例数据,结果是:
+---+---------------+-------+
|id |hashes |matches|
+---+---------------+-------+
|0 |[1, 2, 3, 4, 5]|[1] |
|1 |[1, 5, 3, 7, 9]|[0] |
|2 |[9, 3, 6, 8, 0]|[] |
+---+---------------+-------+
1条答案
按热度按时间zbdgwd5y1#
在spark3中,下面的代码比较行之间的数组,只保留两个数组在同一位置共享至少一个元素的行。
df
是您的输入Dataframe:详细说明
首先,我们执行一个自动交叉联接,根据两个哈希数组中至少有一个元素位于同一位置的条件进行过滤。
为了构建这个条件,我们压缩了两个哈希数组,一个来自第一个Dataframe,一个用于第二个连接的Dataframe,也就是重命名了列的第一个Dataframe。通过压缩,我们得到一个数组
{"hashes":x, "hashes2":y}
接下来我们只需要检查数组中是否存在一个元素x = y
. 完整条件如下:然后,我们将按列进行聚合
id
收集所有id2
保留的行数,表示与您的条件匹配的行数为了保持“hashes”列,对于具有相同“id”的两行,列“hashes”相等,我们得到每个“id”的第一个“hashes”。我们使用collect\u list收集所有“id2”:
最后,我们从列“matches”中筛选出当前行的id
如果您需要“id”按顺序排列,可以添加
orderBy
条款:跑
使用Dataframe
df
包含以下值:您将获得以下输出:
极限
join是笛卡尔积,非常昂贵。虽然条件过滤结果,但在大数据集上可能会导致大量计算/洗牌,并且性能可能非常差。
如果您使用的spark版本在3.0之前,则必须用用户定义的函数替换一些内置spark函数