我有一个pyspark dataframe,其中包含一列数字,我想对它求和、转换并重命名:
simpleData = (("Java",4000,5), \
("Python", 4600,10), \
("Scala", 4100,15), \
("Scala", 4500,15), \
("PHP", 3000,20), \
)
columns= ["name", "nondiscountedmarketvalue", "discount %"]
# Create DataFrame
df = spark.createDataFrame(data = simpleData, schema = columns)
df.printSchema()
df.show(truncate=False)
字符串
我试过这样的东西:
df.select('name',
df.select(sum(df['nondiscountedmarketvalue'].cast('decimal (18,2)')).alias('sum_marketvalue')))
型
但后来我收到一个错误说'TypeError:列不可迭代'。
有人能帮帮我吗?
1条答案
按热度按时间czfnxgou1#
你可以这样做。
字符串
您将需要以下导入。
型