我有一个由在线评论组成的数据框架。我有指定的主题(主题1-5; 0表示没有分配主题)和标签(正或负)。我想为每个主题和标签创建一个虚拟变量。这是我的数据看起来像...
| 审查ID|主题|标号|
| - ------|- ------|- ------|
| 一|第二章|底片|
| 二|第二章|阳性|
| 03|无|底片|
| 四|五个|底片|
| 零五|1个|阳性|
我应该怎么做才能使我的数据看起来像这样?(1表示已分配,0表示未分配)
| 审查ID|主题|标号|T1阳性|T1阴性|T2阳性|T2阴性|T3阳性|T3阴性|T4阳性|T4阴性|T5阳性|T5阴性|
| - ------|- ------|- ------|- ------|- ------|- ------|- ------|- ------|- ------|- ------|- ------|- ------|- ------|
| 一|第二章|底片|无|无|无|1个|无|无|无|无|无|无|
| 二|第二章|阳性|无|无|1个|无|无|无|无|无|无|无|
| 03|无|底片|无|无|无|无|无|无|无|无|无|无|
| 四|五个|底片|无|无|无|无|无|无|无|无|无|1个|
| 零五|1个|阳性|1个|无|无|无|无|无|无|无|无|无|
2条答案
按热度按时间uyhoqukh1#
您可以通过将两列转换为2的幂来创建自己的编码,并获得其二进制表示形式:
输出:
二进制表示形式来自Convert integer to binary array with suitable padding
2guxujil2#
也许有人能想出一个更优雅的解决方案,但这是可行的: