spark sql和hive的区别

lkaoscv7  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(960)

你能帮我理解sparksql和hive的区别吗?

yzckvree

yzckvree1#

apachehive数据仓库软件有助于读取、写入和管理驻留在分布式存储中并使用sql语法查询的大型数据集。
构建在apache hadoop之上的hive提供以下功能:
通过sql轻松访问数据的工具,从而支持数据仓库任务,如提取/转换/加载(etl)、报告和数据分析。
访问直接存储在apachehdfs或其他数据存储系统(如apachehbase)中的文件
通过hivellap、apache yarn和apache slider进行亚秒级的查询检索。
对各种数据格式施加结构的一种机制
其中,apachespark是一个快速通用的集群计算系统。它提供了java、scala、python和r的高级api,以及支持一般执行图的优化引擎。它还支持一组丰富的高级工具,包括sparksqlforsql和结构化数据处理。
sparksql是一个用于结构化数据处理的spark模块,其核心是内存处理。使用sparksql,可以从任何结构化源读取数据,如json、csv、parquet、avro、sequencefiles、jdbc、hive等。
sparksql还可以用于从现有配置单元安装中读取数据。因此,sparksql是一个通用的模块,可以用来处理任何结构化数据源。

相关问题