pyspark Spark分类器和过滤器

gkl3eglg  于 2022-11-01  发布在  Spark
关注(0)|答案(1)|浏览(103)

我正在寻找一个选项在pyspark做排序和过滤在一起,并采取只x行根据列值。例如
我的df:
第一个
预期输出:

sort_and_filter_based_on_column(df, "values", 3).show()
>>
keys   |   values
-----------------
 c     |  3
 d     |  1
 e     |  2

sort_and_filter_based_on_column(df, "values", 2).show()
>>
keys   |   values
-----------------
 d     |  1
 e     |  2

sort_and_filter_based_on_column(df, "values", 5).show()
>>
keys   |   values
-----------------
 a     |  4
 b     |  5
 c     |  3
 d     |  1
 e     |  2

显然,我想尽我所能最有效地做这件事。

ubof19bj

ubof19bj1#

您可以使用以下命令执行此任务

sorted_and_limit_df = df.orderBy('values').limit(num_of_rows)
sorted_and_limit_df.show()

相关问题