如何使用JavaSpark中的foreachbatch()编写cassandra？

cwxwcias 于 2021-06-10 发布在 Cassandra

关注(0)|答案(2)|浏览(455)

我有下面的代码，我想写进Cassandra使用Spark2.4结构化流foreachbatch

Dataset<Row> df = spark
                .readStream()
                .format("kafka")
                .option("kafka.bootstrap.servers", "localhost:9092")
                .option("subscribe", "topic1")
                .load();
        Dataset<Row> values=df.selectExpr(
                "split(value,',')[0] as field1",
                "split(value,',')[1] as field2",
                "split(value,',')[2] as field3",
                "split(value,',')[3] as field4",
                "split(value,',')[4] as field5");
//TODO write into cassandra 
values.writeStream().foreachBatch(
                    new VoidFunction2<Dataset<String>, Long> {
                public void call(Dataset<String> dataset, Long batchId) {
                    // Transform and write batchDF
            }
            ).start();

Java cassandra apache-spark spark-cassandra-connector

来源：https://stackoverflow.com/questions/59289497/how-to-write-to-cassandra-using-foreachbatch-in-java-spark

2条答案

按热度按时间

kuuvgm7e1#

尝试将其添加到pom.xml：

<dependency>
    <groupId>com.datastax.spark</groupId>
    <artifactId>spark-cassandra-connector_2.11</artifactId>
    <version>2.4.2</version>
</dependency>

在那之后，Cassandra暗示：

import org.apache.spark.sql.cassandra._

您可以在df上使用cassandraformat方法：

dataset
      .write
      .cassandraFormat("table","keyspace")
      .save()

展开查看全部

赞(0）回复(0）举报 2021-06-10

rn0zuynd2#

当你使用 .forEachBatch ，您的代码与普通数据集一样工作。。。在java中，代码可以如下所示（完整的源代码如下所示）：

.foreachBatch((VoidFunction2<Dataset<Row>, Long>) (df, batchId) ->
         df.write()
         .format("org.apache.spark.sql.cassandra")
         .options(ImmutableMap.of("table", "sttest", "keyspace", "test"))
         .mode(SaveMode.Append)
         .save()
)

2020年9月更新：spark cassandra connector 2.5.0中增加了对spark结构化流媒体的支持

赞(0）回复(0）举报 2021-06-10

我来回答

如何使用JavaSpark中的foreachbatch()编写cassandra？

2条答案

相关问题

热门标签

最新问答