spark性能从dataframe保存到hdfs或hive的大型数据集

zrfyljdw 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(624)

我在spark dataframe中有一个很大的数据集。我想把这些数据保存到配置单元中。以下哪个选项能给我最好的表现？
将此数据从sparkDataframe保存到hdfs并在其上创建配置单元外部表？
将sparkDataframe中的数据直接写入配置单元表？
哪一个性能最好？为什么？

hadoop Hive apache-spark bigdata

来源：https://stackoverflow.com/questions/55674730/spark-performance-a-large-data-set-save-from-dataframe-to-hdfs-or-hive

1条答案

按热度按时间

yi0zb3m41#

最好将sparkDataframe中的数据直接写入hive表。
存储在配置单元表中的所有数据都作为文件存储在hdfs中。
在hdfs中保存数据和在上面创建一个hive外部表似乎是一项双重工作。
spark的特性是将dataframe中的数据直接保存到配置单元表中，前提是您必须使用dataframe中的模式创建配置单元表，这要容易得多。
spark将数据从dataframe写入hdfs或hive表的性能取决于您的集群设置。

赞(0）回复(0）举报 2021-05-29

我来回答

spark性能从dataframe保存到hdfs或hive的大型数据集

1条答案

相关问题

热门标签

最新问答