hdfs工业标准文件格式?

h7wcgrx3  于 2021-06-02  发布在  Hadoop
关注(0)|答案(3)|浏览(337)

为了提高集群的性能和利用率,在hdfs中存储数据的文件格式的工业实现方法有哪些?
似乎以Parquet文件格式存储数据可以提供比普通文本文件更好的性能。使用Parquet地板与快速压缩提供了性能以及更好的利用集群的空间以及。
所以我的问题是,是只使用parquet文件格式,还是使用parquet加snappy压缩在hdfs上存储数据。行业标准方法是什么?为什么?非常感谢您的帮助。

8tntrjer

8tntrjer1#

据我所知,Parquet格式与快速压缩是非常有效的,并广泛应用于工业。您也可以使用avro,但这取决于您的用例。互联网上的比较数据:

Uncompressed CSV              : 1.8 GB 
Avro                          : 1.5 GB 
Avro w/ Snappy Compression    : 750 MB 
Parquet w/ Snappy Compression : 300 MB

你可以看一下这个文件来了解更多的细节。

1qczuiv0

1qczuiv02#

请记住,分布遵循不同的方法
hortonworks会告诉你应该使用兽人。因为这是hortonworks支持的格式。你可以和snappy一起用。
cloudera会告诉你使用Parquet地板,因为这是他们的首选格式。
mapr将告诉您hdfs是一个文件存储而不是一个文件系统,使用maprfs是hadoop上唯一真正的文件系统,您应该这样做。
听从经销商的建议绝对是个不错的选择。很可能您不会仅根据文件存储参数选择发行版。

70gysomp

70gysomp3#

这当然取决于你的用例。
是否要在这些文件上使用查询引擎(hive、impala)?选择列格式,如兽人或Parquet地板。列格式对于查询更有效,因为您通常只将数据的子集投影到结果中。另一方面,它们压缩得很好。
您是否计划在数据的所有字段上主要使用mapreduce/批处理操作?
同样取决于你的用例:人类可读?使用json或CSV。二元的?使用序列文件。

相关问题