如何从apachespark编写hdf5文件?

tvz2xvvm  于 2021-07-12  发布在  Spark
关注(0)|答案(1)|浏览(381)

我找到了从spark读取hdf5文件的工具,但没有找到编写它们的工具。有可能吗?
我们有一个10-40tb大小的数据集。我们目前正在编写大约20000个python pickle文件。那不是很方便携带。此外,hdf5还提供压缩功能。
我们可以编写Parquet文件,一种方法是写出Parquet,然后将它们转换为hdf5。但是,这种方法并不理想,因为没有一种转换工具是多线程的。
我们想使用hdf5,因为它在科学界有广泛的接受度。它在matlab和stata等程序中的支持似乎明显优于parquet。

rbl8hiat

rbl8hiat1#

在与hdfgroup协商之后,我们确定目前没有直接从spark写入hdf5文件的方法。它们可以用numpy和pandas从dask写出来,但不能用spark。

相关问题