我很清楚hive中支持avro数据格式模式的serde。使用avro与Hive舒适。
阿夫罗塞德
比如说,我发现这个问题对普雷斯托不利。https://github.com/prestodb/presto/issues/5009
我需要选择快速执行周期的组件。presto和impala提供了更小的执行周期。所以,请允许我澄清一下,在不同的数据格式中哪一种更好。首先,我正在寻找与普雷斯托avro支持现在。
但是,让我们考虑存储在hdfs上的以下数据格式:
avro格式
Parquet格式
orc格式
在不同的数据格式上,哪一种性能最好??请建议。
1条答案
按热度按时间0dxa2lsx1#
Impala 可以读取avro数据,但不能写入。请参阅本文档页,说明impala支持的文件格式。
hive支持读写avro文件。
presto的Hive连接器也支持avro。感谢david phillips指出本文档页。
关于性能,互联网上有不同的基准,但我不想链接到具体的基准,因为结果在很大程度上取决于所基准的确切用例。