假设我们有一个pickle文件,名为 pickle_list.pkl
其中包含23个 Dataframe 。也 df_combined
是所有这些 Dataframe 的串联。假设 df_combined
是 (1000000, 5000)
. 有没有更有效的方法来运行下面的代码块?也许某种类型的并行化可以工作?
现在它在69000排,已经运行了一天。
import pickle
import pandas as pd
df_list = pd.read_pickle(r'pickle_list.pkl')
df_combined = pd.concat(df_list, ignore_index=True)
for row in df_combined.itertuples():
print(row.Index)
id = row.id
df_test= df_combined[df_combined['id']==str(id)]
1条答案
按热度按时间eiee3dmh1#
你可以用
groupby
高效地创建字典,然后使用它快速获取所需的标识符。下面是一个未经测试的示例来说明这一想法: