我需要将下面的SQL查询转换为pyspark Dataframe 转换。在select子句中定义了一个相关的子查询。有没有什么方法可以将其转换为pyspark Dataframe 转换?如果您可以分享有关此的文章,将不胜感激。
注:acc_cap
表也是在time
列上使用滞后窗口函数添加prev_time
列后从test_db.test_table
创建的。
查询---
SELECT
A.id,
"psmark" fid,
(
SELECT distinct psmark
from test_db.test_table
where id = A.id and time = A.prev_time and rnk=1
)
AS fromvalue,
FROM acc_cap A;
1条答案
按热度按时间ycggw6v21#
我使用了两个示例 Dataframe acc_cap_df和test_table_df
下面是查询的pyspark等效代码