我有一个sparkDataframe,由列组“g”和时间戳“t”组成。我有一个列表,它给出了一个特定组的时间范围。 [[a, 2, 4],[a, 5, 6],[b, 2, 4]]
我需要的是列“need”,它标记列表范围中定义的行。
完成这项任务最快的方法是什么?因为这项工作将运行在非常大的数据上。
G T Need
------------
a 1
a 2 True
a 3 True
a 4
a 5 True
a 6 True
a 7
b 1
b 2 True
b 3 True
b 4 True
1条答案
按热度按时间ymzxtsji1#
您可以从列表中创建sparkDataframe,然后执行左联接: