我是spark的新手,我有一些逻辑回归模型分数代码,用另一种语言构建,我正在转换为在spark中运行。此模型代码驻留在文本文件中。下面是模型代码的示例。。。
score = 0.27491575973075
+ (residence ='7' )*-0.17704835393105
+ (residence ='8' )*-0.17704835393105
+ (state =9 )*0.64242832288369
+ (state =1 )*-0.15066703353302
+ (state =2 )*-0.12015049320814
+ (state =8 )*-0.12015049320814
;
prob=score/(1+e^score);
上面的截距为0.27491575973075,并根据该行的列是否是标记的值来递增/递减该值。一旦语句完成,它将通过logit转换来接收概率分数(prob)。
i、 e.+(residence='7')-0.17704835393105执行if检查,查看residence是否等于7,如果是,则该行将为+(1)-0.17704835393105-->+(-0.17704835393105)
我试图在spark中实现类似的东西。每列都有其他值,而不是上面摘录中列出的值。i、 e.住宅的值为1-9,州的值为1-52。
有没有一种方法可以让if语句散落在这个线性公式中?
暂无答案!
目前还没有任何答案,快来回答吧!