hdfs工业标准文件格式？

h7wcgrx3 于 2021-06-02 发布在 Hadoop

关注(0)|答案(3)|浏览(337)

为了提高集群的性能和利用率，在hdfs中存储数据的文件格式的工业实现方法有哪些？
似乎以Parquet文件格式存储数据可以提供比普通文本文件更好的性能。使用Parquet地板与快速压缩提供了性能以及更好的利用集群的空间以及。
所以我的问题是，是只使用parquet文件格式，还是使用parquet加snappy压缩在hdfs上存储数据。行业标准方法是什么？为什么？非常感谢您的帮助。

hadoop hdfs bigdata

来源：https://stackoverflow.com/questions/35594744/hdfs-industrial-standard-file-format-for-storage

3条答案

按热度按时间

8tntrjer1#

据我所知，Parquet格式与快速压缩是非常有效的，并广泛应用于工业。您也可以使用avro，但这取决于您的用例。互联网上的比较数据：

Uncompressed CSV              : 1.8 GB 
Avro                          : 1.5 GB 
Avro w/ Snappy Compression    : 750 MB 
Parquet w/ Snappy Compression : 300 MB

你可以看一下这个文件来了解更多的细节。

赞(0）回复(0）举报 2021-06-02

1qczuiv02#

请记住，分布遵循不同的方法
hortonworks会告诉你应该使用兽人。因为这是hortonworks支持的格式。你可以和snappy一起用。
cloudera会告诉你使用Parquet地板，因为这是他们的首选格式。
mapr将告诉您hdfs是一个文件存储而不是一个文件系统，使用maprfs是hadoop上唯一真正的文件系统，您应该这样做。
听从经销商的建议绝对是个不错的选择。很可能您不会仅根据文件存储参数选择发行版。

赞(0）回复(0）举报 2021-06-02

70gysomp3#

这当然取决于你的用例。
是否要在这些文件上使用查询引擎（hive、impala）？选择列格式，如兽人或Parquet地板。列格式对于查询更有效，因为您通常只将数据的子集投影到结果中。另一方面，它们压缩得很好。
您是否计划在数据的所有字段上主要使用mapreduce/批处理操作？
同样取决于你的用例：人类可读？使用json或CSV。二元的？使用序列文件。

赞(0）回复(0）举报 2021-06-02

我来回答

hdfs工业标准文件格式？

3条答案

相关问题

热门标签

最新问答