通过spark应用程序在hdfs的不同仓库目录之间保存配置单元表

uqdfh47h 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(369)

到目前为止，我正在研究如何正确地保存从特定数据库中的Map源表派生的特定配置单元表。假设测试人员和开发人员都有一个单独的数据库。如何将它们可以访问的表列表彼此隔离？
现在，我通过hue监视两个数据库的状态。现在，我有一个spark程序，它在一个yarn集群上运行，它创建一个表来存储，这取决于他是开发人员还是测试人员。
我刚刚创建的spark程序是一个简单的应用程序，它从当前仓库位置读取一个表，并保存一个名为new\u table的新表
我有以下配置单元配置xml，例如：

<configuration>
  <property>
    <name>hive.metastore.uris</name>
    <value>thrift://xxxx:9083</value>
  </property>
  <property>
    <name>hive.metastore.client.socket.timeout</name>
    <value>300</value>
  </property>
  <!--<property>
    <name>hive.metastore.warehouse.dir</name>
    <value>/user/yyyy/warehouse</value>
  </property>-->
  <property>
    <name>hive.warehouse.subdir.inherit.perms</name>
    <value>true</value>
  </property>
  <property>
    <name>hive.auto.convert.join</name>
    <value>true</value>
  </property>
  <property>
    <name>hive.auto.convert.join.noconditionaltask.size</name>
    <value>20971520</value>
  </property>
  <property>
    <name>hive.optimize.bucketmapjoin.sortedmerge</name>
    <value>false</value>
  </property>
  <property>
    <name>hive.smbjoin.cache.rows</name>
    <value>10000</value>
  </property>
  <property>
    <name>hive.server2.logging.operation.enabled</name>
    <value>true</value>
  </property>
  <property>
    <name>hive.server2.logging.operation.log.location</name>
    <value>/var/log/hive/operation_logs</value>
  </property>
  <property>
    <name>mapred.reduce.tasks</name>
    <value>-1</value>
  </property>
  <property>
    <name>hive.exec.reducers.bytes.per.reducer</name>
    <value>67108864</value>
  </property>
  <property>
    <name>hive.exec.copyfile.maxsize</name>
    <value>33554432</value>
  </property>
  <property>
    <name>hive.exec.reducers.max</name>
    <value>1099</value>
  </property>
  <property>
    <name>hive.vectorized.groupby.checkinterval</name>
    <value>4096</value>
  </property>
  <property>
    <name>hive.vectorized.groupby.flush.percent</name>
    <value>0.1</value>
  </property>
  <property>
    <name>hive.compute.query.using.stats</name>
    <value>false</value>
  </property>
  <property>
    <name>hive.vectorized.execution.enabled</name>
    <value>true</value>
  </property>
  <property>
    <name>hive.vectorized.execution.reduce.enabled</name>
    <value>false</value>
  </property>
  <property>
    <name>hive.merge.mapfiles</name>
    <value>true</value>
  </property>
  <property>
    <name>hive.merge.mapredfiles</name>
    <value>false</value>
  </property>
  <property>
    <name>hive.cbo.enable</name>
    <value>false</value>
  </property>
  <property>
    <name>hive.fetch.task.conversion</name>
    <value>minimal</value>
  </property>
  <property>
    <name>hive.fetch.task.conversion.threshold</name>
    <value>268435456</value>
  </property>
  <property>
    <name>hive.limit.pushdown.memory.usage</name>
    <value>0.1</value>
  </property>
  <property>
    <name>hive.merge.sparkfiles</name>
    <value>true</value>
  </property>
  <property>
    <name>hive.merge.smallfiles.avgsize</name>
    <value>16777216</value>
  </property>
  <property>
    <name>hive.merge.size.per.task</name>
    <value>268435456</value>
  </property>
  <property>
    <name>hive.optimize.reducededuplication</name>
    <value>true</value>
  </property>
  <property>
    <name>hive.optimize.reducededuplication.min.reducer</name>
    <value>4</value>
  </property>
  <property>
    <name>hive.map.aggr</name>
    <value>true</value>
  </property>
  <property>
    <name>hive.map.aggr.hash.percentmemory</name>
    <value>0.5</value>
  </property>
  <property>
    <name>hive.optimize.sort.dynamic.partition</name>
    <value>false</value>
  </property>
  <property>
    <name>hive.execution.engine</name>
    <value>mr</value>
  </property>
  <property>
    <name>spark.executor.memory</name>
    <value>996461772</value>
  </property>
  <property>
    <name>spark.driver.memory</name>
    <value>966367641</value>
  </property>
  <property>
    <name>spark.executor.cores</name>
    <value>4</value>
  </property>
  <property>
    <name>spark.yarn.driver.memoryOverhead</name>
    <value>102</value>
  </property>
  <property>
    <name>spark.yarn.executor.memoryOverhead</name>
    <value>167</value>
  </property>
  <property>
    <name>spark.dynamicAllocation.enabled</name>
    <value>true</value>
  </property>
  <property>
    <name>spark.dynamicAllocation.initialExecutors</name>
    <value>1</value>
  </property>
  <property>
    <name>spark.dynamicAllocation.minExecutors</name>
    <value>1</value>
  </property>
  <property>
    <name>spark.dynamicAllocation.maxExecutors</name>
    <value>2147483647</value>
  </property>
  <property>
    <name>hive.metastore.execute.setugi</name>
    <value>true</value>
  </property>
  <property>
    <name>hive.support.concurrency</name>
    <value>true</value>
  </property>
  <property>
    <name>hive.zookeeper.quorum</name>
    <value>xxxx,xxxx</value>
  </property>
  <property>
    <name>hive.zookeeper.client.port</name>
    <value>2181</value>
  </property>
  <property>
    <name>hbase.zookeeper.quorum</name>
    <value>xxxx,xxxx</value>
  </property>
  <property>
    <name>hbase.zookeeper.property.clientPort</name>
    <value>2181</value>
  </property>
  <property>
    <name>hive.zookeeper.namespace</name>
    <value>hive_zookeeper_namespace_hive</value>
  </property>
  <property>
    <name>hive.cluster.delegation.token.store.class</name>
    <value>org.apache.hadoop.hive.thrift.MemoryTokenStore</value>
  </property>
  <property>
    <name>hive.server2.enable.doAs</name>
    <value>true</value>
  </property>
  <property>
    <name>hive.server2.use.SSL</name>
    <value>false</value>
  </property>
  <property>
    <name>spark.shuffle.service.enabled</name>
    <value>true</value>
  </property>
</configuration>

根据我目前的理解，如果我在通过提交Yarn集群上的spark应用程序时将仓库位置更改为其他位置 hive.warehouse.dir 使用 --files /file/hive-site.xml 例如hdfs:/user/diff/warehouse的值，spark应用程序上的配置单元配置应该检测特定目录中存在的以下配置单元表。
但是，执行此操作后，它仍然保持在 hive.metastore.uris 指向目录hdfs:/user/hive/warehouse。根据我的理解，hive.metastore.uris会覆盖中的数据库位置 hive.metastore.dir .
在这一点上我做错了什么？是否需要在hive-site.xml中正确配置某些内容？如有任何答复，将不胜感激。谢谢您。对于spark和hadoop，我目前是一个新手开发人员。

hadoop Hive apache-spark

来源：https://stackoverflow.com/questions/43123620/saving-hive-tables-between-different-warehouse-directories-in-hdfs-via-spark-app

1条答案

按热度按时间

wdebmtf21#

创建单独的数据库

演示

创建数据库是一次性的事情

hive> create database dev_db location '/user/hive/my_databases/dev';
hive> create database tst_db location '/user/hive/my_databases/tst';

创建表时，请选择要使用的数据库

hive> create table dev_db.my_dev_table (i int);
hive> create table tst_db.my_tst_table (i int);

hive> desc formatted dev_db.my_dev_table;


# col_name              data_type               comment
i                       int                                         
# Detailed Table Information
Database:               dev_db                   
...                  
Location:               hdfs://quickstart.cloudera:8020/user/hive/my_databases/dev/my_dev_table  
...

hive> desc formatted tst_db.my_tst_table;

Database:               tst_db                   
...              
Location:               hdfs://quickstart.cloudera:8020/user/hive/my_databases/tst/my_tst_table  
...

展开查看全部

赞(0）回复(0）举报 2021-05-29

我来回答

通过spark应用程序在hdfs的不同仓库目录之间保存配置单元表

1条答案

演示

相关问题

热门标签

最新问答