numpy 用python写一个大的netCDF4文件

dw1jzc5e 于 2023-04-30 发布在 Python

关注(0)|答案(3)|浏览(143)

我正在尝试将netCDF4包与python一起使用。我正在摄取接近20mil的数据记录，每个记录28字节，然后我需要将数据写入netCDF4文件。昨天，我试着一次完成所有这些，在执行了一个小时左右之后，python停止运行代码，并显示了非常有用的错误消息：

Killed.

无论如何，对数据的子部分执行此操作，很明显，在2，560，000条记录和5，120，000条记录之间的某处，代码没有足够的内存，必须开始交换。当然，性能大大降低。两个问题：1）有人知道如何使这项工作更有效吗？我正在考虑的一件事是以某种方式将数据的子部分增量地放入，而不是一次完成。有人知道怎么做吗？2）我假设“已杀死”消息发生在内存最终耗尽时，但我不知道。有人能解释一下吗？
谢谢。
附录：netCDF4提供了这个问题的答案，你可以在我给出的我自己的问题的答案中看到。所以现在，我可以向前看了。但还有一个问题netCDF4的答案不适用于netCDF3，而且netCDF3还没有消失。有谁知道如何在netCDF3框架中解决这个问题？再次感谢。

numpy

来源：https://stackoverflow.com/questions/11799511/writing-large-netcdf4-file-with-python

3条答案

按热度按时间

mspsb9vt1#

如果没有看到代码，很难判断你在做什么，但是你可以尝试使用sync命令，在一些数据被写入文件后，将内存中的数据刷新到磁盘：
http://netcdf4-python.googlecode.com/svn/trunk/docs/netCDF4.Dataset-class.html

赞(0）回复(0）举报 2023-04-30

zd287kbt2#

在netCDF4中有一个现成的答案：使用指定的“chunksize”声明netCDF4变量。我用了10000，一切都进行得很顺利。正如我在编辑我的答案时所指出的，我想在netCDF3中找到一种方法来解决这个问题，因为netDF3还远没有死。

赞(0）回复(0）举报 2023-04-30

mklgxw1f3#

下面的解决方案可以创建大小超过2 GB的文件。但是，您不能读取s3存储桶中的netcdf3文件，因此这个答案的用途有限。如果你像下面这样不限制时间，那么你可以在每个时间步添加数据，而不会使你的内存崩溃。我想知道“chunksize”解决方案是否可以创建大于2GB的文件。

from netCDF4 import Dataset
data_out = Dataset(new_file, 'w', format='NETCDF3_64BIT_OFFSET')
if dim == 'time':
    time_dim = data_out.createDimension(dim, None)
    len_time = len(tmp)
else:
    new_dim = data_out.createDimension(dim, len(tmp))
    new_var = data_out.createVariable(
        dim, cdf_data.variables[dim].datatype, (dim, ))
    new_var[:] = coord_data  # defined elsewhere

for t in range(len_time):
    new_var[t] = data_per_timestep  # insert your data here
    time_dim[t] = time_value
data_out.close()

赞(0）回复(0）举报 2023-04-30

我来回答

numpy 用python写一个大的netCDF4文件

3条答案

相关问题

热门标签

最新问答