pyspark一步聚合

pcww981p  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(276)

我有一个rdd,如下所示:
[(‘2018’、‘1’、‘周六’、‘08:45 pm’、‘01’、‘0’、‘机动车辆-轿车’、‘1’、‘0’、‘0’、‘2018’、‘1’、‘周六’、‘08:45 pm’、‘02’、‘0’、‘机动车辆-类型未知’、‘未知’、‘’、‘未知’)]
我在pyspark dataframe中用以下代码实现了以下代码:

column_filters=Adelaide_filter.withColumn("Date",concat(col("Year"),lit('-'),col("Month"),lit('-'),col("Day"))).drop("Day").drop("Month").drop("Year")
Unit_type = column_filters.groupby("Unit No","Date","Time","Age","Licence Type","Unit Type","Sex").agg({'No Of Cas':'sum'}).orderBy('sum(No Of Cas)',ascending=False)
Unit_type_adelaide=Unit_type.withColumnRenamed("sum(No Of Cas)","Total_casualities").show(5,truncate = False)

它提供了以下输出:
|单元号|日期|时间|年龄|执照类型|单元类型|性别|总|偶然性|
|2 | 2019年10月周一| 08:20 am | 050 |满载|旅行车|男| 5
如何使用rdd操作获得相同的结果?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题