我是hadoop生态系统工具的新手。有人能帮我理解Hive、直线和Hive的区别吗。提前谢谢!
kuarbcqp1#
ClouderaImpala是cloudera的开源大规模并行处理(mpp)sql查询引擎。hortonworks和amazon不支持 Impala 。更新:hortonworks与cloudera合并,新公司名为cloudera。亚马逊也支持 Impala 。mapr还支持 Impala 。 Impala 不使用Map减少引擎盖下,工作速度比Hive。apachehive是一个建立在hadoop之上的数据库,用于提供数据摘要、查询和分析。所有hadoop供应商都支持。非常可靠,几乎可以无限扩展,并与非常大的数据工作,在引擎盖下使用map reduce框架原语,即使配置为运行在tez执行引擎。可以使用tez或mr(在hive2.x中已弃用)执行引擎。beeline是一个Hive客户。请看这里:https://docs.hortonworks.com/hdpdocuments/hdp2/hdp-2.3.4/bk_dataintegration/content/beeline-vs-hive-cli.html
sqougxex2#
apache配置单元:1] apachehive是基于hadoop平台构建的数据仓库基础设施,用于执行数据密集型任务,如查询、分析、处理和可视化。2] 配置单元在编译时生成查询表达式。3] 每个配置单元查询都有“冷启动”问题4] hive将要执行的查询转换为mapreduce作业,这涉及开销。5] hive是一种更通用、多功能和可插拔的语言。6] 对于兼容性和速度同等重要的升级项目。Hive是一个理想的选择。Impala 云:1] impala是程序员在hdfs和apachehbase上运行查询的最佳选择,因为它不需要移动或转换数据。2] impala使用llvm为“大循环”生成运行时代码。3] impala避免了启动开销,因为守护进程是在启动时启动的,总是准备好处理查询。4] Impala 通过大规模的并行处理快速回复。5] Impala 是用来释放其野蛮的处理能力,并给予 lightning 般快速的分析结果。6] Impala 是一个理想的选择时,开始一个新的项目。直线:1] 配置单元cli直接连接到配置单元驱动程序,并要求将配置单元安装在与客户端相同的计算机上。2] 但是,beeline连接到hiveserver2,不需要在与客户端相同的计算机上安装配置单元库。3] beeline是一种瘦客户机,它也使用hivejdbc驱动程序,但通过hiveserver2执行查询,hiveserver2允许多个并发客户机连接并支持身份验证。4] cloudera的sentry安全性通过hiveserver2而不是hiveserver1工作,hivecli使用hiveserver1。所以hive虽然命令行不会遵循setry的策略。根据cloudera文档,您不应该使用hivecli和webhcat。使用直线或 Impala 出售代替。5] connectwithbeeline:url是一个jdbc连接字符串,指向hiveserver2主机。终端>beeline-u url-n用户名-p密码或终点>直线直线>!连接jdbc:hive2://hiveserver2host:port
2条答案
按热度按时间kuarbcqp1#
ClouderaImpala是cloudera的开源大规模并行处理(mpp)sql查询引擎。hortonworks和amazon不支持 Impala 。更新:hortonworks与cloudera合并,新公司名为cloudera。亚马逊也支持 Impala 。mapr还支持 Impala 。 Impala 不使用Map减少引擎盖下,工作速度比Hive。
apachehive是一个建立在hadoop之上的数据库,用于提供数据摘要、查询和分析。所有hadoop供应商都支持。非常可靠,几乎可以无限扩展,并与非常大的数据工作,在引擎盖下使用map reduce框架原语,即使配置为运行在tez执行引擎。可以使用tez或mr(在hive2.x中已弃用)执行引擎。
beeline是一个Hive客户。请看这里:https://docs.hortonworks.com/hdpdocuments/hdp2/hdp-2.3.4/bk_dataintegration/content/beeline-vs-hive-cli.html
sqougxex2#
apache配置单元:
1] apachehive是基于hadoop平台构建的数据仓库基础设施,用于执行数据密集型任务,如查询、分析、处理和可视化。
2] 配置单元在编译时生成查询表达式。
3] 每个配置单元查询都有“冷启动”问题
4] hive将要执行的查询转换为mapreduce作业,这涉及开销。
5] hive是一种更通用、多功能和可插拔的语言。
6] 对于兼容性和速度同等重要的升级项目。Hive是一个理想的选择。
Impala 云:
1] impala是程序员在hdfs和apachehbase上运行查询的最佳选择,因为它不需要移动或转换数据。
2] impala使用llvm为“大循环”生成运行时代码。
3] impala避免了启动开销,因为守护进程是在启动时启动的,总是准备好处理查询。
4] Impala 通过大规模的并行处理快速回复。
5] Impala 是用来释放其野蛮的处理能力,并给予 lightning 般快速的分析结果。
6] Impala 是一个理想的选择时,开始一个新的项目。
直线:
1] 配置单元cli直接连接到配置单元驱动程序,并要求将配置单元安装在与客户端相同的计算机上。
2] 但是,beeline连接到hiveserver2,不需要在与客户端相同的计算机上安装配置单元库。
3] beeline是一种瘦客户机,它也使用hivejdbc驱动程序,但通过hiveserver2执行查询,hiveserver2允许多个并发客户机连接并支持身份验证。
4] cloudera的sentry安全性通过hiveserver2而不是hiveserver1工作,hivecli使用hiveserver1。所以hive虽然命令行不会遵循setry的策略。根据cloudera文档,您不应该使用hivecli和webhcat。使用直线或 Impala 出售代替。
5] connectwithbeeline:url是一个jdbc连接字符串,指向hiveserver2主机。
终端>beeline-u url-n用户名-p密码
或终点>直线
直线>!连接jdbc:hive2://hiveserver2host:port