如何限制aws glue/pyspark写入elasticsearch

w7t8yxp5 于 2021-07-12 发布在 Spark

关注(0)|答案(0)|浏览(226)

我使用下面的代码通过aws glue将pysparkDataframe写入elasticsearch。

df.write.format("org.elasticsearch.spark.sql").\
    mode("overwrite").\
    option("es.resource", "{}/_doc".format(es_index_name)).\
    option("es.nodes", es_node_url).\
    option("es.port", es_node_port).\
    option("es.nodes.wan.only", "true").\
    options(**es_conf).\
    save()

我的问题是，有没有一种方法可以控制glue/pyspark向amazonlasticsearch提交写操作的速度？因为胶水作业无法完成，这是由于大量写入导致的错误引发的。目前，我正试图找到最佳数量的胶水工人产卵和最佳的es配置，这样就不会发生，但我怀疑这种试错的方法是最有效的方式来处理这类问题。提前谢谢。

elasticsearch apache-spark pyspark aws-glue

来源：https://stackoverflow.com/questions/66523568/how-to-throttle-aws-glue-pyspark-writes-to-elasticsearch

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

如何限制aws glue/pyspark写入elasticsearch

暂无答案！

相关问题

热门标签

最新问答