pyspark向量汇编程序中已存在输出列

jexiocij  于 2021-07-13  发布在  Spark
关注(0)|答案(0)|浏览(232)

我正在使用PySpark3.0.1。我将开发一个以薪水为因变量的线性回归模型&大约79个自变量,所以我编写了以下代码

from pyspark.ml.feature import VectorAssembler, StandardScaler
train,test=df.randomSplit([0.7,0.3],seed=21)
input_col=[...]
vector_assembler=VectorAssembler(inputCols=input_col,outputCol='salary')
temp_train=vector_assembler.transform(train)

我在临时列车执行步骤中遇到以下错误,

IllegalArgumentException: Output column salary already exists.

但薪水不在我的输入列表中。你能建议我怎么解决这个问题吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题