我们有一个超过50列的cassandra模式,通过使用spark(Dataframe而不是rdd)转换数据,我们正在将来自多个数据源的数据插入其中。由于数据稀少,我们遇到了许多墓碑的问题。已经试过了 spark.cassandra.output.ignoreNulls=true 但它不起作用。在cassandra中不写空值的正确配置是什么?我正在使用齐柏林飞艇运行我的spark代码并将数据推送到c*
spark.cassandra.output.ignoreNulls=true
rwqw0loc1#
找到了解决办法:文档中有提示:https://github.com/datastax/spark-cassandra-connector/blob/master/doc/14_data_frames.md 低于 Setting Connector Specific Options on Datasets 主题。确切的代码如下所示:
Setting Connector Specific Options on Datasets
transformedData.write.format("org.apache.spark.sql.cassandra").option("header","false").option("spark.cassandra.output.ignoreNulls", true).mode("append").options(Map( "table" -> table_name, "keyspace" -> keyspace_name)).save()
1条答案
按热度按时间rwqw0loc1#
找到了解决办法:
文档中有提示:https://github.com/datastax/spark-cassandra-connector/blob/master/doc/14_data_frames.md 低于
Setting Connector Specific Options on Datasets
主题。确切的代码如下所示: