我们正在使用es hadoop插件将数据从hadoop hbase表推送到elasticsearch集群。下面是集群的详细信息。
elasticsearch版本:2.3.5
数据节点:3
主节点:3
客户端节点:1
数据节点也是主节点。
数据/主节点堆:20gb
客户端节点堆:3gb
每个索引的主碎片数:5
每个索引的副本碎片数:1
当我们在spark和stage上执行作业时,经过一段时间后,我们开始将数据从hadoop推送到elasticsearch ElasticSearch Bailing Out
.
我们怀疑spark执行器超过了elasticsearch可以为bulk api处理的并发连接数,这是因为post的最大连接数elasticsearch开始拒绝写请求。
如何确定elasticsearch客户端节点可以处理和成功写入多少并发批量api连接,以及每个批量api请求的最大文档数应该是多少?
对于需要在一小时内索引80-90 gb数据的写操作,我们应该研究哪些参数来优化elasticsearch群集?
暂无答案!
目前还没有任何答案,快来回答吧!