我使用下面的代码通过aws glue将pysparkDataframe写入elasticsearch。
df.write.format("org.elasticsearch.spark.sql").\
mode("overwrite").\
option("es.resource", "{}/_doc".format(es_index_name)).\
option("es.nodes", es_node_url).\
option("es.port", es_node_port).\
option("es.nodes.wan.only", "true").\
options(**es_conf).\
save()
我的问题是,有没有一种方法可以控制glue/pyspark向amazonlasticsearch提交写操作的速度?因为胶水作业无法完成,这是由于大量写入导致的错误引发的。目前,我正试图找到最佳数量的胶水工人产卵和最佳的es配置,这样就不会发生,但我怀疑这种试错的方法是最有效的方式来处理这类问题。提前谢谢。
暂无答案!
目前还没有任何答案,快来回答吧!