在Python pandas中将货币$转换为数字

tzdcorbm  于 2023-08-01  发布在  Python
关注(0)|答案(6)|浏览(124)

我在pandas dataframe中有以下数据:

state        1st        2nd             3rd
0   California  $11,593,820 $109,264,246    $8,496,273
1   New York    $10,861,680 $45,336,041     $6,317,300
2   Florida     $7,942,848  $69,369,589     $4,697,244
3   Texas       $7,536,817  $61,830,712     $5,736,941

字符串
我想对三列(1st、2nd、3rd)执行一些简单的分析(例如,sum、groupby),但这三列的数据类型是object(或string)。
因此,我使用以下代码进行数据转换:

data = data.convert_objects(convert_numeric=True)


但是,转换不工作,也许,由于美元符号。有什么建议吗?

m1m5dgzv

m1m5dgzv1#

@EdChum的回答很聪明,效果很好。但既然烤蛋糕的方法不止一种。为什么不使用regex?举例来说:

df[df.columns[1:]] = df[df.columns[1:]].replace('[\$,]', '', regex=True).astype(float)

字符串
对我来说,这是一个更多一点的可读性。

kknvjkwl

kknvjkwl2#

你可以使用向量化的str方法来替换不需要的字符,然后将类型转换为int:

In [81]:
df[df.columns[1:]] = df[df.columns[1:]].apply(lambda x: x.str.replace('$','')).apply(lambda x: x.str.replace(',','')).astype(np.int64)
df

Out[81]:
            state       1st        2nd      3rd
index                                          
0      California  11593820  109264246  8496273
1        New York  10861680   45336041  6317300
2         Florida   7942848   69369589  4697244
3           Texas   7536817   61830712  5736941

字符串
dtype变更现已确认:

In [82]:

df.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 4 entries, 0 to 3
Data columns (total 4 columns):
state    4 non-null object
1st      4 non-null int64
2nd      4 non-null int64
3rd      4 non-null int64
dtypes: int64(3), object(1)
memory usage: 160.0+ bytes


另一种方式:

In [108]:

df[df.columns[1:]] = df[df.columns[1:]].apply(lambda x: x.str[1:].str.split(',').str.join('')).astype(np.int64)
df
Out[108]:
            state       1st        2nd      3rd
index                                          
0      California  11593820  109264246  8496273
1        New York  10861680   45336041  6317300
2         Florida   7942848   69369589  4697244
3           Texas   7536817   61830712  5736941

4urapxun

4urapxun3#

您也可以按如下方式使用locale

import locale
import pandas as pd
locale.setlocale(locale.LC_ALL,'')
df['1st']=df.1st.map(lambda x: locale.atof(x.strip('$')))

字符串
注意上面的代码是在Python 3和Windows环境下测试的

tzxcd3kk

tzxcd3kk4#

要转换为整数,请用途:

carSales["Price"] = carSales["Price"].replace("[$,]", "", regex=True).astype(int)

字符串

olhwl3o2

olhwl3o25#

你可以使用方法str.replace和正则表达式'\D'来删除所有非数字字符,或者使用'[^-.0-9]'来保留减号、小数点和数字:

for col in df.columns[1:]:
    df[col] = pd.to_numeric(df[col].str.replace('[^-.0-9]', ''))

字符串

wnrlj8wa

wnrlj8wa6#

car_sales['Price'] = car_sales['Price'].str.replace('$', '').str.replace(',', '').str.split('.', expand=True)[0].astype(int)

字符串

相关问题