如何在pyspark中每隔7次创建一个索引列

8ftvxx2r 于 2021-07-09 发布在 Spark

关注(0)|答案(1)|浏览(286)

我有一个 pyspark 如下所示的Dataframe：

import pandas as pd
foo = pd.DataFrame({'date_col':['2010-02-27','2010-01-20','2010-01-20','2010-01-21','2010-01-21','2010-02-21','2010-02-22','2010-02-23','2010-02-24','2010-02-25','2010-02-26','2010-01-20','2010-01-21','2010-02-20'], 'group':['a','a','a','a','a','a','a','a','a','a','a','b','b','b']})

我想创建一个 week 列，这将是一个索引，它每7个有序的 date_col 由 group .
生成的Dataframe应如下所示：

foo = pd.DataFrame({'date_col':['2010-02-27','2010-01-20','2010-01-20','2010-01-21','2010-01-21','2010-02-21','2010-02-22','2010-02-23','2010-02-24','2010-02-25','2010-02-26','2010-01-20','2010-01-21','2010-02-20'], 'group':['a','a','a','a','a','a','a','a','a','a','a','b','b','b'],
               'week':[2,2,1,1,1,1,1,1,1,1,1,1,1,1]})

有什么好主意我可以这样做吗 pyspark ?
更新
再解释一下逻辑。
基本上，操作可分为以下步骤：
订购 foo 在 date_col 分组依据 group 创建 temp_index 列，该列将对 date_col 由 group 创建 week 列将是 div 的 temp_index 与 7

apache-spark pyspark apache-spark-sql

来源：https://stackoverflow.com/questions/66917945/how-to-create-an-index-column-every-7-occurrences-in-pyspark

1条答案

按热度按时间

wwodge7n1#

你可以用 dense_rank 把等级除以7。在除法之前需要先减去1，因为在sql中，秩从1开始，而不是从0开始。

from pyspark.sql import functions as F, Window

df2 = df.withColumn(
    'week', 
    (
        (F.dense_rank().over(Window.partitionBy('group').orderBy('date_col')) - 1) / 7
    ).cast('int')
)

df2.show()
+----------+-----+----+
|  date_col|group|week|
+----------+-----+----+
|2010-01-20|    b|   0|
|2010-01-21|    b|   0|
|2010-02-20|    b|   0|
|2010-01-20|    a|   0|
|2010-01-20|    a|   0|
|2010-01-21|    a|   0|
|2010-01-21|    a|   0|
|2010-02-21|    a|   0|
|2010-02-22|    a|   0|
|2010-02-23|    a|   0|
|2010-02-24|    a|   0|
|2010-02-25|    a|   0|
|2010-02-26|    a|   1|
|2010-02-27|    a|   1|
+----------+-----+----+

赞(0）回复(0）举报 2021-07-09

我来回答

如何在pyspark中每隔7次创建一个索引列

1条答案

相关问题

热门标签

最新问答