我有这样的数据集
| RespID|年龄|GEO| Gen| PROD| BRND| Q1| Q2| Q3|
| --|--|--|--|--|--|--|--|--|
| 1 | 1 | 1 | 1 | 3 | 3 | 4 | 1 | 6 |
| 2 | 1 | 2 | 2 | 2 | 1 | 1 | 4 | 9 |
| 3 | 4 | 2 | 2 | 1 | 1 | 3 | 4 | 6 |
| 4 | 1 | 1 | 2 | 3 | 2 | 7 | 4 | 3 |
| 5 | 2 | 1 | 1 | 3 | 2 | 1 | 4 | 3 |
| 6 | 1 | 1 | 2 | 2 | 3 | 2 | 4 | 2 |
| 7 | 2 | 2 | 2 | 3 | 3 | 7 | 2 | 10 |
| 8 | 4 | 2 | 1 | 1 | 1 | 4 | 2 | 6 |
| 9 | 3 | 1 | 2 | 2 | 2 | 4 | 3 | 9 |
| 10 | 1 | 2 | 1 | 1 | 1 | 7 | 7 | 7 |
对于每个数据集,我将获得另一个文件,该文件以捕获时的方式构建
x1c 0d1x的数据
问题是:有没有可能以某种方式创建一个字典或其他东西的文件,这是在捕获,然后运行在表,所以我没有geo = 1,但Ryga或其他等等?第1 - 3季度还将为我提供1-10个(目前还没有)。我只知道如何使用字典更改列的名称,但不知道如何更改值,动态的。将使用数据块,所以python和pyspark可用
非常感谢您的帮助和提示
1条答案
按热度按时间k7fdbhmy1#
为每个需要翻译的列创建一个case语句。
下面是两列
GEN
和GEO
的示例:字符串
输出量:
型
翻译列表可以根据需要扩展到其他列。