根据sap\u vora\u installation\u admin\u guide\u 2.0\u en.pdf文档,需要运行hadoop/spark集群和kubernetis集群。
现在我的问题是,为什么需要hadoop/spark集群?因为sapvora可以读取hdfs、webhdfs等等。
所以,如果你有一个spark作业,你可以在spark cluster上运行它,如果它需要来自hana/vora的数据,它可以访问它吗?或者vora也使用spark cluster来处理数据?
因为现在看起来spark可以使用vora,但是vora不能使用spark(voraui工具,比如sql编辑器等等)。因为你可以连接到vora的齐柏林飞艇只是用于可视化(据我所知,如果我错了请纠正我)。
我的第二个问题是,是否可以在hadoop/spark集群上使用pyspark来与vora交互,而不仅仅是scala spark。
提前谢谢。
1条答案
按热度按时间xtupzzrd1#
是的,您的假设是正确的:spark可以访问vora2.1,但是vora2.1不能与spark交互,因此不需要hadoop/spark集群。但是,如果您没有hadoop,那么您必须有一个替代的数据存储来从s3、adl等加载数据。
是的,可以使用pyspark与vora交互。