Apache Spark 从Google云数据处理访问Cassandra

g2ieeal7  于 2022-12-13  发布在  Apache
关注(0)|答案(2)|浏览(124)

我刚刚使用DataProc在Google Cloud中设置了Spark集群,并且我有一个独立安装的Cassandra在单独的VM上运行。我想安装Datastax spark-cassandra连接器,以便从spark连接到Cassandra。我该如何操作?
连接器可在此处下载:
https://github.com/datastax/spark-cassandra-connector
关于构建的说明如下:https://github.com/datastax/spark-cassandra-connector/blob/master/doc/12_building_and_artifacts.md
需要SBT来构建它。
在哪里可以找到用于安装DataProc的sbt?
它会在$SPARK_HOME/bin下吗?Spark安装在哪里?

e0bqpujr

e0bqpujr1#

我将跟进不久前@angus-davis的一条非常有用的评论。
在哪里可以找到用于安装DataProc的sbt?
目前,sbt不包含在Cloud Dataproc集群中。sbt documentation包含如何手动安装sbt的信息。如果您需要在集群上重新安装sbt,我强烈建议您创建一个init action,以便在创建集群时安装sbt。经过一些研究,SBT似乎包含在BSD-3许可证中。这意味着我们可能(没有承诺)将其包含在CloudDataproc集群中。
它是否在$SPARK_HOME/bin下?Spark安装在DataProc的什么位置?
这个问题的答案是 * 这取决于 * 你的意思。

  • 二进制文件-/usr/bin
  • 配置-/etc/spark/conf
  • Spark_主页-/usr/lib/spark

重要的是,安装在Cloud Dataproc集群上的其他主要OSS组件(如Hadoop和Hive)也使用相同的模式。
我想安装Datastax spark-cassandra连接器,这样我就可以从spark连接到Cassandra。如何安装?
安格斯发送的Stack Overflow答案可能是最简单的方法,如果它可以作为Spark包使用的话。然而,根据我所能找到的,这可能不是一个选项。这意味着你将需要安装sbt并手动安装。

dddzy1tm

dddzy1tm2#

你可以使用cassandra和datastax中提到的jar和连接器。你可以简单地下载jar并将其传递给dataproc集群。你可以在这个链接[ 1 ]中找到Google提供的模板,我为它做了贡献。这解释了如何使用模板通过Dataproc连接到Cassandra。

相关问题