对不起,标题太混乱了,我不知道怎么说清楚。
这就是我想用pyspark sql实现的目标:
当变量“z”的值介于2000和3000之间时,返回该特定id的行,但仅返回变量y和z的数据。
除了下面的查询,我不知道如何更进一步,如何让sql知道我们需要在附加的df中选择适当的id(2和3)?
SELECT ID, Variable, Date, Value
FROM TABLE
WHERE (Variable == 'Y' OR Variable == 'Z') AND "if Value of Z between 2000 and 3000 then select only these IDs"
3条答案
按热度按时间yyyllmsg1#
在spark中,我建议使用窗口函数:
我希望这会有一个更好的执行计划。
erhoui1w2#
fruv7luv3#
尝试使用简单的内部查询