如何从apachespark编写hdf5文件？

tvz2xvvm 于 2021-07-12 发布在 Spark

关注(0)|答案(1)|浏览(381)

我找到了从spark读取hdf5文件的工具，但没有找到编写它们的工具。有可能吗？
我们有一个10-40tb大小的数据集。我们目前正在编写大约20000个python pickle文件。那不是很方便携带。此外，hdf5还提供压缩功能。
我们可以编写Parquet文件，一种方法是写出Parquet，然后将它们转换为hdf5。但是，这种方法并不理想，因为没有一种转换工具是多线程的。
我们想使用hdf5，因为它在科学界有广泛的接受度。它在matlab和stata等程序中的支持似乎明显优于parquet。

apache-spark hdf5

来源：https://stackoverflow.com/questions/66569509/how-do-i-write-hdf5-files-from-apache-spark