elasticsearch在更改sparksql上运行的path.data时丢失性能

cx6n0qe3  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(184)

我在使用sparksql的4个节点的集群上使用elastisearch。我正在尝试使用savetoes将表从hive metastore复制到elasticseach。如果我使用大小在13gb左右的表,一切都很好,但是如果我想索引一个大小在60gb或更大的表,就会出错。
问题是,许多执行者应该在惟一的/var/lib/elastisearch文件夹上进行写操作,结果出了问题。集群的每个节点都有10个硬盘,所以为了提高并行性,我在path.data中添加了更多的文件夹,每个磁盘都有,所以最后我有了

path.data=/data1/elasticsearch,.......,/data10/elasticsearch

我觉得一切都很好。我检查了新的配置

curl  http://namenode:9200/_nodes/settings?pretty

问题在于:
默认的path.data索引速度是每分钟1gb
新的配置速度是每2/2,5分钟1gb。
因此,在第二种配置中,我可以索引巨大的表(因为进程不会崩溃),但是elastic非常慢,在默认配置中,elastic非常快,但是我不能索引大于15gb的表。有什么需要配置的吗?
我正在集群上使用elasticsearch 2.3.2和maven dependecy elasticsearch hadoop:2.3.2为spark编写scala驱动程序。
谢谢

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题