python-3.x Pandas之间的交流太慢了,下面的代码有什么更快的替代方法？

gorkyyrv 于 2023-10-21 发布在 Python

关注(0)|答案(1)|浏览(102)

我有一个大约60万行的数据集。由于使用了pandas iterrows（），下面的代码需要很长时间才能运行。是否有适合下面所示特定代码的替代方案

%%time
import numpy as np
df_inputed = df # dataframe with many missing values
for index, row in df_to_inpute.iterrows(): 
    sic = row['sic']
    year = row['year']
    quarter = row['quarter']
    for col in cols_to_check: #columns except for date and pk columns
        value = row[col]
        if np.isnan(value): 
            median = get_median(sic, year, quarter) #assume operation is O(1) time
            if not np.isnan(median): 
                df_inputed.at[index, col] = median

python-3.x

来源：https://stackoverflow.com/questions/77291990/pandas-interrows-too-slow-what-is-a-faster-alternative-for-following-code

1条答案

按热度按时间

kqqjbcuj1#

使用df.apply + pd.Series.fillna方法的组合：

def fill_with_median(x):
    if x[cols_to_check].isna().any():  # if filling is needed
        med = x[cols_median].median()
        if not np.isnan(med):
            x[cols_to_check] = x[cols_to_check].fillna(med)
    return x
cols_median = ['sic', 'year', 'quarter']
df = df.apply(fill_with_median, axis=1)

另一种方法是使用 boolean masks 来过滤填充所需的切片：

m = df[cols_to_check].isna().any(axis=1)
med_vals = df[cols_median][m].median(1)
df.loc[m & med_vals.notna(), cols_to_check] = med_vals

展开查看全部

赞(0）回复(0）举报 2023-10-21

我来回答

python-3.x Pandas之间的交流太慢了,下面的代码有什么更快的替代方法？

1条答案

相关问题

热门标签

最新问答