pyspark一步聚合

pcww981p 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(281)

我有一个rdd，如下所示：
[（‘2018’、‘1’、‘周六’、‘08:45 pm’、‘01’、‘0’、‘机动车辆-轿车’、‘1’、‘0’、‘0’、‘2018’、‘1’、‘周六’、‘08:45 pm’、‘02’、‘0’、‘机动车辆-类型未知’、‘未知’、‘’、‘未知’）]
我在pyspark dataframe中用以下代码实现了以下代码：

column_filters=Adelaide_filter.withColumn("Date",concat(col("Year"),lit('-'),col("Month"),lit('-'),col("Day"))).drop("Day").drop("Month").drop("Year")
Unit_type = column_filters.groupby("Unit No","Date","Time","Age","Licence Type","Unit Type","Sex").agg({'No Of Cas':'sum'}).orderBy('sum(No Of Cas)',ascending=False)
Unit_type_adelaide=Unit_type.withColumnRenamed("sum(No Of Cas)","Total_casualities").show(5,truncate = False)

它提供了以下输出：
|单元号|日期|时间|年龄|执照类型|单元类型|性别|总|偶然性|
|2 | 2019年10月周一| 08:20 am | 050 |满载|旅行车|男| 5
如何使用rdd操作获得相同的结果？

rdd apache-spark pyspark apache-spark-sql data-science

来源：https://stackoverflow.com/questions/63758582/pyspark-aggregation-in-one-step

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

pyspark一步聚合

暂无答案！

相关问题

热门标签

最新问答