我正在使用PySpark3.0.1。我将开发一个以薪水为因变量的线性回归模型&大约79个自变量,所以我编写了以下代码
from pyspark.ml.feature import VectorAssembler, StandardScaler
train,test=df.randomSplit([0.7,0.3],seed=21)
input_col=[...]
vector_assembler=VectorAssembler(inputCols=input_col,outputCol='salary')
temp_train=vector_assembler.transform(train)
我在临时列车执行步骤中遇到以下错误,
IllegalArgumentException: Output column salary already exists.
但薪水不在我的输入列表中。你能建议我怎么解决这个问题吗?
暂无答案!
目前还没有任何答案,快来回答吧!