pyspark Spark分类器和过滤器

gkl3eglg 于 2022-11-01 发布在 Spark

关注(0)|答案(1)|浏览(103)

我正在寻找一个选项在pyspark做排序和过滤在一起，并采取只x行根据列值。例如
我的df：
第一个
预期输出：

sort_and_filter_based_on_column(df, "values", 3).show()
>>
keys   |   values
-----------------
 c     |  3
 d     |  1
 e     |  2

sort_and_filter_based_on_column(df, "values", 2).show()
>>
keys   |   values
-----------------
 d     |  1
 e     |  2

sort_and_filter_based_on_column(df, "values", 5).show()
>>
keys   |   values
-----------------
 a     |  4
 b     |  5
 c     |  3
 d     |  1
 e     |  2

显然，我想尽我所能最有效地做这件事。

pyspark

来源：https://stackoverflow.com/questions/74207454/spark-sort-filter

1条答案

按热度按时间

ubof19bj1#

您可以使用以下命令执行此任务

sorted_and_limit_df = df.orderBy('values').limit(num_of_rows)
sorted_and_limit_df.show()

赞(0）回复(0）举报 2022-11-01

我来回答

pyspark Spark分类器和过滤器

1条答案

相关问题

热门标签

最新问答