我对hive和hadoop还不熟悉。我已经为hadoop配置了伪分布式操作，其中一个数据节点和一个名称节点都在localhost上。
我有一个普通的employee表，其中包含4条记录。我可以在一个合理的时间内选择记录，但任何超过这需要很长时间。例如：

0: jdbc:hive2://localhost:10000> select * from emp;
+------------+------------+-------------+-------------+------------+
| emp.empno  | emp.ename  |   emp.job   | emp.deptno  | emp.etype  |
+------------+------------+-------------+-------------+------------+
| 7369       | SMITH      | CLERK       | 10          | PART_TIME  |
| 7400       | JONES      | ENGINEER    | 10          | FULL_TIME  |
| 7500       | BROWN      | NIGHTGUARD  | 20          | FULL_TIME  |
| 7510       | LEE        | ENGINEER    | 20          | FULL_TIME  |
+------------+------------+-------------+-------------+------------+
4 rows selected (0.643 seconds)
0: jdbc:hive2://localhost:10000> select * from emp order by empno;
WARNING: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+------------+------------+-------------+-------------+------------+
| emp.empno  | emp.ename  |   emp.job   | emp.deptno  | emp.etype  |
+------------+------------+-------------+-------------+------------+
| 7369       | SMITH      | CLERK       | 10          | PART_TIME  |
| 7400       | JONES      | ENGINEER    | 10          | FULL_TIME  |
| 7500       | BROWN      | NIGHTGUARD  | 20          | FULL_TIME  |
| 7510       | LEE        | ENGINEER    | 20          | FULL_TIME  |
+------------+------------+-------------+-------------+------------+
4 rows selected (225.852 seconds)

花了这么长时间做什么？我可以缩短投票时间吗？我知道Hive不是为小任务而优化的，但这似乎很荒谬。
下面是各种文件：hive-site.xml

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <property>
    <name>hive.mapred.mode</name>
    <value>nostrict</value>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:derby:;databaseName=metastore_db;create=true</value>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>org.apache.derby.jdbc.EmbeddedDriver</value>
  </property>
  <property>
    <name>hive.exec.local.scratchdir</name>
    <value>/home/hadoop/tmp</value>
  </property>
  <property>
    <name>hive.downloaded.resources.dir</name>
    <value>/home/hadoop/tmp/${hive.session.id}_resources</value>
  </property>
  <property>
    <name>hive.querylog.location</name>
    <value>/home/hadoop/tmp</value>
  </property>
  <property>
    <name>hive.server2.logging.operation.log.location</name>
    <value>/home/hadoop/tmp/operation_logs</value>
  </property>
</configuration>

hdfs.xml文件

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>
   <property>
      <name>dfs.name.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/namenode</value>
   </property>
   <property>
      <name>dfs.data.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/datanode</value>
   </property>
</configuration>

core-site.xml文件

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://localhost:9000</value>
   </property>
   <property>
      <name>hadoop.proxyuser.hive.groups</name>
      <value>*</value>
   </property>
   <property>
      <name>hadoop.proxyuser.hive.hosts</name>
      <value>*</value>
   </property>
   <property>
      <name>hadoop.proxyuser.hadoop.hosts</name>
      <value>*</value>
   </property>
   <property>
      <name>hadoop.proxyuser.hadoop.groups</name>
      <value>*</value>
   </property>
</configuration>

mapred-site.xml文件

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property>
</configuration>

yarn-site.xml文件

<?xml version="1.0"?>
<configuration>
   <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
   </property>
</configuration>

6条答案

按热度按时间

cuxqih211#

使用直线壳，不推荐使用Hive。

赞(0）回复(0）举报 2021-06-01

wf82jlnq2#

你的Hive正在使用 Map Reduce 用于处理hive2中不推荐使用的数据，并且响应速度慢，因此必须设置 Tez 或者 Spark 作为你的Hive执行引擎，给你更快的结果。
根据我的经验，我建议你用 Tez 作为最佳性能的执行引擎。用于设置 Hive-Tez 请把这份文件流转一下。https://docs.hortonworks.com/hdpdocuments/hdp2/hdp-2.6.2/bk_command-line-installation/content/ref-d677ca50-0a14-4d9e-9882-b764e689f6db.1.html

ou6hu8tu3#

在查询中使用“order by”，order by强制所有结果的总顺序，因此必须有一个reducer来对最终输出进行排序。
尽管在这种情况下记录的数量较少，但由于两个阶段（map和reduce）和磁盘i/o，查询的处理需要时间。如果输出中的行数太大，则单个减速机可能需要很长时间才能完成。
建议您在tez或spark引擎上运行hive，除非确实需要，否则不要运行需要完整扫描表的查询。

g2ieeal74#

Set hive.fetch.task.conversion=none;

设置此属性并再次运行

dgtucam15#

在配置单元查询的开头使用以下命令：

-- use cost-based query optimization
set hive.cbo.enable=true;
set hive.compute.query.using.stats=true;
set hive.stats.fetch.column.stats=true;
set hive.stats.fetch.partition.stats=true;
-- use dynamic hive partition
set hive.exec.dynamic.partition = true;
set hive.exec.dynamic.partition.mode = nonstrict;

请添加评论，如果你喜欢我的答案！

hujrc8aj6#

您可以做两件事来更快地运行查询：1。使用distribute by和sort by的组合。distribute by将确保具有某个值的所有键最终都位于同一个数据节点上。sort by随后将对每个节点上的数据进行排序。2在执行查询之前，将执行引擎设置为tez。
设置hive.execution.engine=tez；
我想这一定会让你的查询运行得更快。

有什么让hive在hadoop上运行更快的技巧吗？

6条答案

相关问题

热门标签

最新问答