我正在尝试使用spark对 cassandra 表做一些简单的计算,但我相当迷失。
我努力跟着:https://github.com/datastax/spark-cassandra-connector/blob/master/doc/15_python.md
所以我运行PySpark shell:与
./bin/pyspark \
--packages com.datastax.spark:spark-cassandra-connector_2.11:2.0.0-M3
但是我不知道如何设置。我如何让Spark知道我的Cassandra集群在哪里?我已经看到CassandraSQLContext
可以用于此,但我也读到它被弃用了。
我读过这篇文章:How to connect spark with cassandra using spark-cassandra-connector?
但如果我用
import com.datastax.spark.connector._
Python说它找不到这个模块,有人能给我指出正确的方向,告诉我如何正确设置吗?
3条答案
按热度按时间3zwtqj6y1#
1.复制pyspark-cassandra连接器Spark文件夹/jar。
1.下面的代码将连接到cassandra。
ovfsdjhp2#
Cassandra连接器不提供任何Python模块。所有功能都是由Data Source API提供的,只要有所需的jar,所有功能都可以开箱即用。
我怎么才能让星火知道我的 cassandra 星团在哪里?
使用
spark.cassandra.connection.host
属性。例如,您可以将其作为spark-submit
/pyspark
的参数传递:或在配置中设置:
可以直接在读取器上设置表名或密钥空间等配置:
因此,您可以遵循Dataframes文档。
作为旁注
是一种Scala语法,在Python中只是偶然被接受。
egdjgwm83#
用户名和密码: