在spark任务中将数据保存到elasticsearch

ne5o7dgx 于 2021-06-07 发布在 Kafka

关注(0)|答案(2)|浏览(464)

在通过kafka和spark处理avro消息流时，我将处理后的数据保存为elasticsearch索引中的文档。下面是代码（简化）：

directKafkaStream.foreachRDD(rdd ->{

        rdd.foreach(avroRecord -> {
            byte[] encodedAvroData = avroRecord._2;
            MyType t = deserialize(encodedAvroData);

    // Creating the ElasticSearch Transport client
    Settings settings = Settings.builder()
            .put("client.transport.ping_timeout", 5, TimeUnit.SECONDS).build();
    TransportClient client = new PreBuiltTransportClient(settings)
            .addTransportAddress(new TransportAddress(InetAddress.getByName("localhost"), 9300));

    IndexRequest indexRequest = new IndexRequest("index", "item", id)
            .source(jsonBuilder()
                    .startObject()
                    .field("name", name)
                    .field("timestamp", new Timestamp(System.currentTimeMillis()))
                    .endObject());

    UpdateRequest updateRequest = new UpdateRequest("index", "item", id)
            .doc(jsonBuilder()
                    .startObject()
                    .field("name", name)
                    .field("timestamp", new Timestamp(System.currentTimeMillis()))
                    .endObject())
            .upsert(indexRequest);

    client.update(updateRequest).get();

    client.close();

一切正常；唯一的问题是性能：保存到es需要一些时间，我想这是因为我为每个rdd打开/关闭了es传输客户机。spark文档表明这种方法是非常正确的：据我所知，唯一可能的优化是使用rdd.foreachpartition，但我只有一个分区，所以我不确定这是否有益。有没有其他解决方案可以实现更好的性能？

apache-kafka spark-avro spark-streaming elasticsearch-java-api

来源：https://stackoverflow.com/questions/47527490/saving-data-to-elasticsearch-in-spark-task

2条答案

按热度按时间

ocebsuys1#

我会将处理过的消息流回到一个单独的kafka主题，然后使用kafka connect将它们放到elasticsearch上。这将使特定于spark的处理与将数据导入elasticsearch分离。
它在行动中的例子：https://www.confluent.io/blog/blogthe-simplest-useful-kafka-connect-data-pipeline-in-the-world-or-thereabouts-part-2/

赞(0）回复(0）举报 2021-06-07

gstyhher2#

因为只要处理rdd的记录，就创建新的connect。所以，我想用 foreachPartition 无论只使用一个分区，都可以获得更好的性能，因为它可以帮助您将es连接示例带到外部，并在循环中重用它。

赞(0）回复(0）举报 2021-06-07