我计划做的是利用现有数据开发一个报告平台。我有一个现有的rdbms有大量的记录。所以我在用(hadoop 2.7、spark、hive、jasperreports、scoop-架构)
独家新闻-从rdbms提取数据到hadoop
hadoop-存储平台
配置单元-数据仓库
Spark-由于Hive更像批处理SparkHive将加快事情
jasperreports-生成报告。
鉴于我已经阅读了以下内容
spark中的客户机模式是什么?
Yarn客户模式与Yarn集群模式的区别
我应该使用哪种模式?为什么?决定基于什么?
2条答案
按热度按时间35g0bw711#
为danier darabos添加更多信息:除了托管应用程序/faillover和驱动程序运行的位置(yarn cluster模式下的应用程序主机或yarn client模式下的客户端),其他功能保持不变。但yarn客户机模式支持sparkshell,这与yarn集群模式不同。
看看这篇文章,了解一下在不同的模式下运行spark应用程序的区别——Yarn集群、Yarn客户机和spark独立模式
在考虑所有选项的标准后,做出一个经过计算的决定。
y4ekin9u2#
决定是您是否希望应用程序作为应用程序运行。
非Yarn应用程序
yarn-client
模式)更简单。它是一个经典的linux应用程序,你可以像任何应用程序一样启动它,它也可以像任何应用程序一样在那台机器上运行。Yarn应用程序(您可以在
yarn-cluster
模式)由Yarn管理。它在任何机器上运行。如果它死了,Yarn会重新启动它,也许是在另一台机器上。它更健壮(例如,如果机器死机,它将重新启动),但代价是复杂性(例如,应用程序没有固定的ip地址)。我会和你一起去
yarn-client
一开始。你可以切换到yarn-cluster
稍后,如果您发现您需要它提供的功能。