我在df
中存储了两个多级分类列:
dow
表示星期几(七个类别Map到整数:1、2、...、7)。type
表示四种类型的观察(四个类别Map到整数:1、2、3、4)。
如何在PySpark中创建这两个列的交互(即乘法)?
我知道如何使用OneHotEncoder
编码它们。然而,我不确定如何进行特征工程过程来解释所有28种组合(7 x 4种可能的情况),特别是因为OneHotEncoder
返回稀疏向量。
对于这个问题,假设我的pyspark框架df
看起来如下:
| Dow|类型|目标|
| --|--|--|
| 1 | 1 | 200 |
| 1 | 2 | 222 |
| 1 | 7 | 229 |
其中dow
可以有七个不同的值,type
可以有四个。是否有一种内置的方法来创建这两个列之间的交互,以便考虑所有可能的组合?
1条答案
按热度按时间guykilcj1#
您可以通过将
dow
乘以10并添加type
来为每个唯一值创建单独的整数来进行整数编码: