Impala 是一个柱状集群数据库吗?

e1xvtsh3  于 2021-06-26  发布在  Impala
关注(0)|答案(2)|浏览(298)

我不熟悉大数据和相关工具/技术。我在看 Impala 的资料。
说 Impala 是一个聚集的柱状数据库是真的吗?而 Impala 需要大量的内存来计算/转换数据?

bbmckpt7

bbmckpt71#

impala与apachehive元存储数据库集成,在两个组件之间共享数据库和表。与hive的高度集成以及与hiveql语法的兼容性使您可以使用impala或hive来创建表、发出查询、加载数据等等。
Impala 不是数据库。
impala不是基于map-reduce算法的。它实现了一个基于守护进程的分布式体系结构,守护进程负责在同一台机器上运行的查询执行的所有方面。

ktca8awb

ktca8awb2#

Impala 不是一个数据库。
impala是一个mpp(大规模并行处理)sql查询引擎。它是hdfs结构之上的sql接口。可以在parquet文件上构建文件结构,这些文件是允许快速读取数据的列文件。
根据impala文件:
impala直接对存储在hdfs、hbase或amazon简单存储服务(s3)中的apachehadoop数据提供快速、交互式的sql查询。除了使用相同的统一存储平台外,impala还使用与apache配置单元相同的元数据、sql语法(hivesql)、odbc驱动程序和用户界面(hue中的impala查询ui)。这为实时或面向批处理的查询提供了一个熟悉的统一平台。
impala使用hivemetastore来存储每个文件的文件结构和模式。impala允许您在文件中运行sqls查询,它将负责并行化集群中的数据。
关于记忆的使用,你说得有点对。impala使用内存绑定执行,hive使用基于磁盘的经典map reduce over tez执行。在较新版本的impala中,这允许您使用磁盘溢出,这将帮助您处理与内存不匹配的数据。

相关问题