hive索引重建太慢

3bygqnnd 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(417)

我试着比较我的postgresql数据仓库和新创建的hive数据仓库在同一个框中的相同功能，使用相同的数据和相同的表结构。我想了解Hive的好处，但是。。。尽管数据加载到postgresql的速度慢了3倍——postgresql上的索引创建/重建速度快了20倍，但索引不需要像在hive中那样每次都重建。我的问题是：我在Hive配置中缺少什么？
我的设置是：create table mytable（aa int，bb string）行格式分隔字段，以'\t'location'/data/spaces/hadoop/hadoopfs'结尾；
将data local inpath'/data/informix94/spaces/postgres/myfile\u big'overwrite加载到表mytable中；
在表mytable（aa）上创建索引mytable indx，格式为“org.apache.hadoop.hive.ql.index.compact.compactindexhandler”，延迟重建位置为“/data/spaces/hadoop/hadoopfs”；
设置hive.optimize.autoindex=true；设置hive.optimize.index.filter=true；
在mytable rebuild上改变索引mytable\u indx；
我的盒子是带有3g内存的虚拟机，上面运行postgresql，占用1g内存。他担任元数据存储。我使用的是centos、hadoop、hive的最新稳定版本，除了matadata存储位置和统计信息禁用外，没有更改hive的默认设置。
结果是：在260.000.000行上重建索引需要4798秒，在5.000.000行上重建索引需要80秒。

hadoop Hive

来源：https://stackoverflow.com/questions/15542248/hive-index-rebuild-too-slow-in-compare-with-postgresql