集群模式下jupyterhub用户团队的单个sparkcontext

vjrehmav  于 2021-05-16  发布在  Spark
关注(0)|答案(0)|浏览(247)

我正在为我的组织构建一个数据工程平台(目前是一个poc),它最多只能由20个成员在内部使用。其思想是使用:
计算的Spark
s3上的三角洲湖用于存储(稍后将由minio上的s3取代)
最小的jupyterhub供团队成员与数据交互。
我的问题背景:
1据我所知,不建议使用多个sparkContext—请参阅这里的stackoverflow和这里的。而且,deltalake对s3也是这样说的
2团队成员可能需要使用jupyterub更新(相同的)小deltalake表。
三。可能需要夜间spark作业来更新大型deltalake表。
我的问题是:
1我对sparkcontext的理解正确吗?
2让一个spark驱动程序和任意数量的spark worker始终在集群上运行是正确的吗?即在kubernetes上以集群模式运行spark,让团队成员使用sparkcontext.builder&getorcreate()-stackoverflow-answer访问它?
三。使用相同的sparkcontext运行长spark夜间作业也正确吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题