我有一个关于rdd访问控制的问题。有一个数据必须只保存在给定的服务器(或它们的列表)上,不允许任何原始数据离开它。这些数据可以由一些人来处理 map 只有在这之后才能进一步转移。spark或支持的群集管理解决方案(如mesos)中是否有任何功能?
map
ix0qys7i1#
一 HadoopRDD (使用人) sc.textFile 例如)具有位于具有文件数据的计算机上的关联(看到了吗 HadoopRDD.getPreferredLocations .) map 在同一台机器上执行。但这并不能保证原始数据不会离开机器。例如,如果机器上的Spark加工工死亡,那么另一个加工工将从另一台机器加载Spark加工工。我认为安全的选择是在“安全”机器上运行一个spark集群(或其他处理系统),执行 map 进入该集群,并将结果写入在“不安全”计算机上运行的hdfs(或其他存储系统)。然后运行在“不安全”机器上的一个单独的Spark束可以处理数据。
HadoopRDD
sc.textFile
HadoopRDD.getPreferredLocations
1条答案
按热度按时间ix0qys7i1#
一
HadoopRDD
(使用人)sc.textFile
例如)具有位于具有文件数据的计算机上的关联(看到了吗HadoopRDD.getPreferredLocations
.)map
在同一台机器上执行。但这并不能保证原始数据不会离开机器。例如,如果机器上的Spark加工工死亡,那么另一个加工工将从另一台机器加载Spark加工工。
我认为安全的选择是在“安全”机器上运行一个spark集群(或其他处理系统),执行
map
进入该集群,并将结果写入在“不安全”计算机上运行的hdfs(或其他存储系统)。然后运行在“不安全”机器上的一个单独的Spark束可以处理数据。