spark rdd访问限制和群集中的位置

pbossiut  于 2021-06-21  发布在  Mesos
关注(0)|答案(1)|浏览(342)

我有一个关于rdd访问控制的问题。
有一个数据必须只保存在给定的服务器(或它们的列表)上,不允许任何原始数据离开它。这些数据可以由一些人来处理 map 只有在这之后才能进一步转移。
spark或支持的群集管理解决方案(如mesos)中是否有任何功能?

ix0qys7i

ix0qys7i1#

HadoopRDD (使用人) sc.textFile 例如)具有位于具有文件数据的计算机上的关联(看到了吗 HadoopRDD.getPreferredLocations .) map 在同一台机器上执行。
但这并不能保证原始数据不会离开机器。例如,如果机器上的Spark加工工死亡,那么另一个加工工将从另一台机器加载Spark加工工。
我认为安全的选择是在“安全”机器上运行一个spark集群(或其他处理系统),执行 map 进入该集群,并将结果写入在“不安全”计算机上运行的hdfs(或其他存储系统)。然后运行在“不安全”机器上的一个单独的Spark束可以处理数据。

相关问题