在向cassandra表写入数据时,我得到了以下关于写入的行数和所用时间的信息。从日志中,我可以看到它来自tablewriter类。我怎样才能在阅读Cassandra的文章时找到相同的信息而不调用rdd上的操作?我不知道用哪种方法阅读。
2020-04-20 11:58:42 INFO com.datastax.spark.connector.writer.TableWriter.logInfo:35 - Wrote 24 rows to my_keyspace.mytable in 0.153 s.
将sparkDataframe写入cassandra表的代码
myDF.write
.format("org.apache.spark.sql.cassandra")
.mode(saveMode)
.options(Map("keyspace" -> "my_keyspace", "table" -> "my_table"))
.save()
将cassandra表读入spark rdd的代码
val cassandraRDD = sparkSession.read
.format("org.apache.spark.sql.cassandra")
.options(Map( "table" -> "my_table", "keyspace" -> "my_keyspace", "pushdown" -> "true"))
.load()
1条答案
按热度按时间1dkrff031#
我也能在阅读过程中得到指标。不同之处在于这些度量的日志记录级别。在写的时候,日志级别是info,这就是为什么我能够在日志中找到这些信息。但是在写的过程中,这些度量是以调试级别记录的。我将spark日志级别改为debug,并且能够看到这些度量。
参考-https://community.datastax.com/questions/3512/getting-the-number-of-records-read-from-cassandra.html