我已阅读文档,其中说明
"Only ORC file format is supported in this first release. The feature has been built such that transactions can be used by any storage format that can determine how updates or deletes apply to base records (basically, that has an explicit or implicit row id), but so far the integration work has only been done for ORC."
但我的问题是,为什么只有ORC,为什么它不能做的 parquet ,例如,ORC有什么特殊的东西,使它兼容的酸交易?
1条答案
按热度按时间rur96b6h1#
根据
cwiki
,在此第一版中仅支持ORC文件格式。已构建此功能,以便任何存储格式都可以使用事务处理,该存储格式可以确定如何将更新或删除应用于基本记录(基本上,具有显式或隐式行ID),但到目前为止,集成工作仅针对ORC完成。
ORC没有什么特别的,除了列存储,压缩文件格式-这使得它比文本文件快。理论上可行。
2014年0.13版推出了该功能。之后,他们改进了该功能,但没有改进其他文件格式。这意味着,其他文件格式可能没有足够的需求或复杂性,或者他们不得不为其他文件格式重写所有内容。
有关事务处理功能的详细信息,请参阅此链接。https://cwiki.apache.org/confluence/display/hive/hive+transactions