spark性能从dataframe保存到hdfs或hive的大型数据集

zrfyljdw  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(624)

我在spark dataframe中有一个很大的数据集。我想把这些数据保存到配置单元中。以下哪个选项能给我最好的表现?
将此数据从sparkDataframe保存到hdfs并在其上创建配置单元外部表?
将sparkDataframe中的数据直接写入配置单元表?
哪一个性能最好?为什么?

yi0zb3m4

yi0zb3m41#

最好将sparkDataframe中的数据直接写入hive表。
存储在配置单元表中的所有数据都作为文件存储在hdfs中。
在hdfs中保存数据和在上面创建一个hive外部表似乎是一项双重工作。
spark的特性是将dataframe中的数据直接保存到配置单元表中,前提是您必须使用dataframe中的模式创建配置单元表,这要容易得多。
spark将数据从dataframe写入hdfs或hive表的性能取决于您的集群设置。

相关问题