elasticsearch在更改sparksql上运行的path.data时丢失性能

cx6n0qe3 于 2021-06-02 发布在 Hadoop

关注(0)|答案(0)|浏览(184)

我在使用sparksql的4个节点的集群上使用elastisearch。我正在尝试使用savetoes将表从hive metastore复制到elasticseach。如果我使用大小在13gb左右的表，一切都很好，但是如果我想索引一个大小在60gb或更大的表，就会出错。
问题是，许多执行者应该在惟一的/var/lib/elastisearch文件夹上进行写操作，结果出了问题。集群的每个节点都有10个硬盘，所以为了提高并行性，我在path.data中添加了更多的文件夹，每个磁盘都有，所以最后我有了

path.data=/data1/elasticsearch,.......,/data10/elasticsearch

我觉得一切都很好。我检查了新的配置

curl  http://namenode:9200/_nodes/settings?pretty

问题在于：
默认的path.data索引速度是每分钟1gb
新的配置速度是每2/2,5分钟1gb。
因此，在第二种配置中，我可以索引巨大的表（因为进程不会崩溃），但是elastic非常慢，在默认配置中，elastic非常快，但是我不能索引大于15gb的表。有什么需要配置的吗？
我正在集群上使用elasticsearch 2.3.2和maven dependecy elasticsearch hadoop:2.3.2为spark编写scala驱动程序。
谢谢

hadoop elasticsearch apache-spark Path

来源：https://stackoverflow.com/questions/38104577/elasticsearch-loses-performance-changing-path-data-running-on-sparksql

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

elasticsearch在更改sparksql上运行的path.data时丢失性能

暂无答案！

相关问题

热门标签

最新问答