我应该使用sumit作业来激发还是可以从客户端lib运行它们？

a7qyws3x 于 2021-05-27 发布在 Hadoop

关注(0)|答案(1)|浏览(359)

所以我正在学习spark，我有一个关于客户libs如何工作的问题。
我的目标是在spark中进行某种数据分析，告诉它要处理的数据源（数据库、cvs等）在哪里，并将结果存储在hdfs、s3或任何类型的数据库（如mariadb或mongodb）中。
我考虑过要有一个“告诉”spark我想做什么的服务（api应用程序）。问题是：设置主配置是否足够 spark:remote-host:7077 在创建上下文时，或者我应该用某种 spark-submit 命令？

hadoop apache-spark Database

来源：https://stackoverflow.com/questions/60075554/should-i-have-to-sumit-jobs-to-spark-or-i-can-run-them-from-client-lib

1条答案

按热度按时间

ej83mcc01#

这完全取决于您的环境是如何设置的，如果所有路径都链接到您的帐户，您应该能够运行这两个命令中的一个，以有效地打开shell并运行测试命令。之所以有shell，是因为它允许您动态地运行命令，并验证/学习如何在彼此之间运行/约束命令，并查看结果。
斯卡拉

spark-shell

python

pyspark

在环境内部，如果所有内容都链接到配置单元表，则可以通过运行

spark.sql("show tables").show(100,false)

上面的命令将在spark hive metastore目录上运行一个“showtables”，并返回您可以看到的所有活动表（并不意味着您可以访问底层数据）。100表示我将查看100行，false表示显示完整字符串，而不是前n个字符。
在一个虚构的例子中，如果您看到的其中一个表被称为input\u table，您可以使用下面的命令将它带到环境中

val inputDF = spark.sql("select * from Input_Table")
inputDF.count

我强烈建议，在您学习时，不要通过spark submit运行命令，因为您将需要通过类和jar，迫使您为每个测试编辑/重新生成命令，这使得您很难理解在没有大量停机时间的情况下命令将如何运行。

赞(0）回复(0）举报 2021-05-27

我来回答

我应该使用sumit作业来激发还是可以从客户端lib运行它们？

1条答案

相关问题

热门标签

最新问答