scala—获取使用spark cassandra连接器时从cassandra表读取的记录数

wztqucjr  于 2021-06-13  发布在  Cassandra
关注(0)|答案(1)|浏览(349)

在向cassandra表写入数据时,我得到了以下关于写入的行数和所用时间的信息。从日志中,我可以看到它来自tablewriter类。我怎样才能在阅读Cassandra的文章时找到相同的信息而不调用rdd上的操作?我不知道用哪种方法阅读。

2020-04-20 11:58:42 INFO  com.datastax.spark.connector.writer.TableWriter.logInfo:35 - Wrote 24 rows to my_keyspace.mytable in 0.153 s.

将sparkDataframe写入cassandra表的代码

myDF.write
  .format("org.apache.spark.sql.cassandra")
  .mode(saveMode)
  .options(Map("keyspace" -> "my_keyspace", "table" -> "my_table"))
  .save()

将cassandra表读入spark rdd的代码

val cassandraRDD = sparkSession.read
      .format("org.apache.spark.sql.cassandra")
      .options(Map( "table" -> "my_table", "keyspace" -> "my_keyspace", "pushdown" -> "true"))
      .load()
1dkrff03

1dkrff031#

我也能在阅读过程中得到指标。不同之处在于这些度量的日志记录级别。在写的时候,日志级别是info,这就是为什么我能够在日志中找到这些信息。但是在写的过程中,这些度量是以调试级别记录的。我将spark日志级别改为debug,并且能够看到这些度量。
参考-https://community.datastax.com/questions/3512/getting-the-number-of-records-read-from-cassandra.html

相关问题