所以我正在学习spark,我有一个关于客户libs如何工作的问题。
我的目标是在spark中进行某种数据分析,告诉它要处理的数据源(数据库、cvs等)在哪里,并将结果存储在hdfs、s3或任何类型的数据库(如mariadb或mongodb)中。
我考虑过要有一个“告诉”spark我想做什么的服务(api应用程序)。问题是:设置主配置是否足够 spark:remote-host:7077
在创建上下文时,或者我应该用某种 spark-submit
命令?
所以我正在学习spark,我有一个关于客户libs如何工作的问题。
我的目标是在spark中进行某种数据分析,告诉它要处理的数据源(数据库、cvs等)在哪里,并将结果存储在hdfs、s3或任何类型的数据库(如mariadb或mongodb)中。
我考虑过要有一个“告诉”spark我想做什么的服务(api应用程序)。问题是:设置主配置是否足够 spark:remote-host:7077
在创建上下文时,或者我应该用某种 spark-submit
命令?
1条答案
按热度按时间ej83mcc01#
这完全取决于您的环境是如何设置的,如果所有路径都链接到您的帐户,您应该能够运行这两个命令中的一个,以有效地打开shell并运行测试命令。之所以有shell,是因为它允许您动态地运行命令,并验证/学习如何在彼此之间运行/约束命令,并查看结果。
斯卡拉
python
在环境内部,如果所有内容都链接到配置单元表,则可以通过运行
上面的命令将在spark hive metastore目录上运行一个“showtables”,并返回您可以看到的所有活动表(并不意味着您可以访问底层数据)。100表示我将查看100行,false表示显示完整字符串,而不是前n个字符。
在一个虚构的例子中,如果您看到的其中一个表被称为input\u table,您可以使用下面的命令将它带到环境中
我强烈建议,在您学习时,不要通过spark submit运行命令,因为您将需要通过类和jar,迫使您为每个测试编辑/重新生成命令,这使得您很难理解在没有大量停机时间的情况下命令将如何运行。