我正在寻找一个选项在pyspark做排序和过滤在一起,并采取只x行根据列值。例如
我的df:
第一个
预期输出:
sort_and_filter_based_on_column(df, "values", 3).show()
>>
keys | values
-----------------
c | 3
d | 1
e | 2
sort_and_filter_based_on_column(df, "values", 2).show()
>>
keys | values
-----------------
d | 1
e | 2
sort_and_filter_based_on_column(df, "values", 5).show()
>>
keys | values
-----------------
a | 4
b | 5
c | 3
d | 1
e | 2
显然,我想尽我所能最有效地做这件事。
1条答案
按热度按时间ubof19bj1#
您可以使用以下命令执行此任务