使用spark datastax connector忽略具有Dataframe的空值

41ik7eoe 于 2021-06-14 发布在 Cassandra

关注(0)|答案(1)|浏览(402)

我们有一个超过50列的cassandra模式，通过使用spark（Dataframe而不是rdd）转换数据，我们正在将来自多个数据源的数据插入其中。
由于数据稀少，我们遇到了许多墓碑的问题。
已经试过了 spark.cassandra.output.ignoreNulls=true 但它不起作用。在cassandra中不写空值的正确配置是什么？
我正在使用齐柏林飞艇运行我的spark代码并将数据推送到c*

cassandra DataFrame apache-spark Connector datastax

来源：https://stackoverflow.com/questions/57659876/ignore-nulls-with-data-frame-using-spark-datastax-connector

1条答案

按热度按时间

rwqw0loc1#

找到了解决办法：
文档中有提示：https://github.com/datastax/spark-cassandra-connector/blob/master/doc/14_data_frames.md 低于 Setting Connector Specific Options on Datasets 主题。
确切的代码如下所示：

transformedData.write.format("org.apache.spark.sql.cassandra").option("header","false").option("spark.cassandra.output.ignoreNulls", true).mode("append").options(Map( "table" -> table_name, "keyspace" -> keyspace_name)).save()

赞(0）回复(0）举报 2021-06-14

我来回答

使用spark datastax connector忽略具有Dataframe的空值

1条答案

相关问题

热门标签

最新问答