在python中增量加载大数据

svgewumm 于 2021-07-13 发布在 Java

关注(0)|答案(0)|浏览(426)

我试图用python加载一个大的（250万行）数据集。我加载这个数据集的方式是通过一个api，它在每次调用中为我提供一块数据。
问题是我不能把所有的数据都存储到内存中。理论上，我可以创建一个大的csv文件，并将每个块的数据附加到这个文件中，然后对块使用pandas read\u csv，但我想避免自己实际将文件写入磁盘。
我想知道是否有任何方法可以利用Pandas/达斯克/其他任何东西来实现这一点？也就是说，增量地构造一个大Dataframe。
附件是显示我的问题的示例代码。

import pandas as pd
def get_session_features(session_id):  # this is the mock API function
    return {'session_id': session_id, 'features': list(range(session_id))}
def get_features_session_list(session_ids):
    all_features = []
    for session_id in session_ids:
        all_features.append(get_session_features(session_id))
    return all_features
features = pd.DataFrame(get_features_session_list(list(range(100))))  # in large numbers this will cause a memory error

python pandas bigdata

来源：https://stackoverflow.com/questions/67286396/loading-large-data-incrementally-in-python

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

在python中增量加载大数据

暂无答案！

相关问题

热门标签

最新问答