我目前正在从一个数据集开发一个pandas数据框架,其中包括从2012年开始的德国进出口收入。为了清楚起见,我想再加上一栏“大洲”,并为每个国家指定其位置。我的数据框是按国家和年份排序的。代码片段如下所示:
| 国家|代码|......这是什么?|大陆|
| --|--|--|--|
| 阿富汗|ST423|......这是什么?|4 <--预期结果|
“代码”中的第三个字符定义了大陆:欧洲1个,非洲2个,美洲3个,亚洲4个,大洋洲5个。我正在尝试用大陆名称填写“大陆”一栏。
我尝试的是首先创建一个系列的列表“代码”
codelist = df["Code"].to_list()
然后我尝试(在未能实现我的目标后)至少将数字添加到该列,因此“代码”中每个值的第三个符号。但即使在这里,我也没有这样做:
[codelist[x][2] for x in range(0,len(codelist)-1)]
它指出:“IndexError:字符串索引超出范围”,我不明白,因为
codelist[0][2]
和
codelist[len(codelist)-1][2]
两者都给予了积极的结果。
2条答案
按热度按时间vulvrdjw1#
这是因为列
Code
肯定至少包含一个长度小于3的字符串。您可以使用
str
/map
:extract
的另一个变体:或者,如果你更喜欢 listcomp,你可以通过添加一个
if/else
语句来修复你的代码:输出量:
使用的输入:
q3aa05252#
正如其他人所说,在某个地方,你有一个少于3个字符的
Code
。如果你不介意使用一个空字符串来表示欧洲大陆,这很容易修复:切片很有趣。如果您请求一个不存在的索引,则会得到
IndexError
。但是如果你请求一个不存在的范围,你会得到一个空的结果。所以只需要使用一个长度为单个字符的范围。