我找到了从spark读取hdf5文件的工具,但没有找到编写它们的工具。有可能吗?
我们有一个10-40tb大小的数据集。我们目前正在编写大约20000个python pickle文件。那不是很方便携带。此外,hdf5还提供压缩功能。
我们可以编写Parquet文件,一种方法是写出Parquet,然后将它们转换为hdf5。但是,这种方法并不理想,因为没有一种转换工具是多线程的。
我们想使用hdf5,因为它在科学界有广泛的接受度。它在matlab和stata等程序中的支持似乎明显优于parquet。
1条答案
按热度按时间rbl8hiat1#
在与hdfgroup协商之后,我们确定目前没有直接从spark写入hdf5文件的方法。它们可以用numpy和pandas从dask写出来,但不能用spark。