我正在从事一个springjava项目,并使用datastax连接器集成apachespark和cassandra。
我有自动连线sparksession和下面的代码行似乎工作。
Map<String, String> configMap = new HashMap<>();
configMap.put("keyspace", "key1");
configMap.put("table", tableName.toLowerCase());
Dataset<Row> ds = sparkSession.sqlContext().read().format("org.apache.spark.sql.cassandra").options(configMap)
.load();
ds.show();
但这总是给我20张唱片。我想选择表的所有记录。有人能告诉我怎么做吗?
提前谢谢。
1条答案
按热度按时间jaxagkaj1#
show
默认情况下,始终输出20条记录,尽管可以传递参数来指定需要多少项。但是show
通常仅用于简要检查数据,尤其是在交互工作时。在您的情况下,一切都取决于您想对数据做什么—您已经使用
load
函数-之后你就可以开始使用普通的spark函数-select
,filter
,groupBy
等等。p、 您可以在这里找到更多关于使用java的spark cassandra连接器(scc)的例子,尽管它比使用scala更麻烦。。。我建议您一定要使用SCC2.5.0或更高版本,因为那里有许多新特性。