我们有一个场景,在云环境中使用hive的存储能力(下面是hdfs)和spark cluster的计算能力。有没有办法把这两层分开。
脚本:
hive定期获取数据(持久层)。不能随意删除。
使用spark cluster在任意点处理Hive层中的数据。但我们不希望在计算完成后使集群基础设施处于空闲状态。
因此,我们正在考虑在需要处理之前在云中创建集群,并在处理结束后立即删除spark集群。优势在于节省集群资源的维护成本。
如果我们将数据加载到一个节点集群中的hive上,那么我们可以读取这些数据,以便在spark集群中进行处理,而不必进行数据移动。
假设-hadoop的datanodes没有使用高端配置,它们不适合在内存中进行spark处理(cpu资源不足;内存不足)。
请说明这种情况在云基础设施(gcp)中是否可行。有没有更好的方法来解决这个问题。
暂无答案!
目前还没有任何答案,快来回答吧!