python—如何提高代码的速度效率

5tmbdcev 于 2021-08-20 发布在 Java

关注(0)|答案(1)|浏览(517)

假设我们有一个pickle文件，名为 pickle_list.pkl 其中包含23个 Dataframe 。也 df_combined 是所有这些 Dataframe 的串联。假设 df_combined 是 (1000000, 5000) . 有没有更有效的方法来运行下面的代码块？也许某种类型的并行化可以工作？
现在它在69000排，已经运行了一天。

import pickle
import pandas as pd
df_list = pd.read_pickle(r'pickle_list.pkl')
df_combined = pd.concat(df_list, ignore_index=True)

for row in df_combined.itertuples():
    print(row.Index)
    id = row.id
    df_test= df_combined[df_combined['id']==str(id)]

python pandas performance parallel-processing Algorithm

来源：https://stackoverflow.com/questions/68308689/how-to-make-code-more-efficient-in-terms-of-speed

1条答案

按热度按时间

eiee3dmh1#

你可以用 groupby 高效地创建字典，然后使用它快速获取所需的标识符。下面是一个未经测试的示例来说明这一想法：

import pickle
import pandas as pd
df_list = pd.read_pickle(r'pickle_list.pkl')
df_combined = pd.concat(df_list, ignore_index=True)

all_groups = {ident:df for ident,df in df_combined.groupby('id')}

for row in df_combined.itertuples():
    id = row.id
    # You may need to add a condition before if the searched ID does not exist
    df_test = all_groups[str(id)]

赞(0）回复(0）举报 2021-08-20

我来回答

python—如何提高代码的速度效率

1条答案

相关问题

热门标签

最新问答