**已关闭。**此问题不符合堆栈溢出准则。它目前不接受答案。
**想要改进此问题?**更新问题,使其位于堆栈溢出主题上。
昨天关门了。
改进这个问题
我正在试验机器学习回归器,我使用的数据集train.csv来自以下网页:https://www.kaggle.com/c/rossmann-store-sales/data?select=train.csv
我试着训练svr,但需要花很多时间来适应,所以我意识到问题可能是因为我没有标准化数据。
我知道通常的做法是规范化列,但我不确定应该将其应用于哪些列。有一些二进制变量和一些连续变量,我觉得规范化二进制变量会很奇怪。这是正确的吗?
表列如下所示:
公开、促销和学校假期是二元的。stateholiday可以取0到4之间的值。其他值是整数(日期除外)。
1条答案
按热度按时间m2xkgtsf1#
Store
,DayOfWeek
,Open
,Promo
,StateHoliday
,SchoolHoliday
是分类特征。可以使用以下方法将它们编码为一个热编码向量:OneHotEncoder
.Sales
,Customers
是数字特征,可以进行编码,例如StandardScaler
,RobustScaler
等有关其他转换,请参见此处的scikit学习预处理文档。