最近我正在用s3建立hadoop cluster over object store,所有的数据文件都存储在s3而不是hdfs中,并且我成功地在s3上运行了spark和mp,所以我想知道我的namenode是否仍然是必需的,如果是的话,当我在s3上运行hadoop应用程序时,namenode做了什么?谢谢。
vom3gejh1#
不,前提是你有一个方法来处理s3缺乏运输工作提交人所需要的一致性这一事实。每隔一段时间,如果s3的列表不够一致,结果就会无效,你甚至不会注意到。aws上spark的不同供应商以自己的方式解决了这个问题。如果您使用的是asf spark,那么没有任何捆绑包可以做到这一点。https://www.youtube.com/watch?v=bghrff5yaqo
1条答案
按热度按时间vom3gejh1#
不,前提是你有一个方法来处理s3缺乏运输工作提交人所需要的一致性这一事实。每隔一段时间,如果s3的列表不够一致,结果就会无效,你甚至不会注意到。
aws上spark的不同供应商以自己的方式解决了这个问题。如果您使用的是asf spark,那么没有任何捆绑包可以做到这一点。
https://www.youtube.com/watch?v=bghrff5yaqo