如何转置有多个索引列的pyspark Dataframe ?

8ehkhllq  于 2022-12-22  发布在  Spark
关注(0)|答案(1)|浏览(123)

我有一个 Dataframe ,看起来像这样:
| 识别号|公司_Id|价值|批准或拒绝|
| - ------| - ------| - ------| - ------|
| 1A|小行星3412|值-1|批准|
| 2B类|小行星2345|值-2|批准|
| 3C语言|小行星9800|值-3|批准|
| 2B类|小行星2345|值-1|批准|
请注意,ID可以使用不同的"值"重复。ID、Company_ID是索引。
现在我需要输出为:
| 识别号|公司_Id|值-1|值-2|值-3|
| - ------| - ------| - ------| - ------| - ------|
| 1A|小行星3412|批准|零|零|
| 2B类|小行星2345|批准|批准|零|
| 3C语言|小行星9800|零|零|批准|

zbq4xfa0

zbq4xfa01#

Spark枢轴

df.groupBy('ID',    'Company_Id').pivot('value').agg(first('Approve or Reject')).show()

相关问题