我目前从事的项目使用一个小型hadoop集群来迭代大约300gb的数据。对这些数据进行分析,并填充一个mongodb,稍后由我们的系统使用。
现在hadoop集群运行在4台物理机器上(旧的dellprecisiont3500)。对于测试这是一个伟大的设置,因为我可以很容易地互动,安装和测试的机器。但很明显,当程序发布时,这是不太理想的。对于这一步,最理想的结果是虚拟化hadoop。将它分布在一组可以在集群中运行的docker容器上。
在互联网上搜索时,很快就发现hadoop可以在这样的环境中运行。大多数搜索结果都涉及yarn和实际的hadoop示例以及如何启动它们。这很好,但我想知道:hdfs会发生什么。
在我当前的测试设置中,hdfs包含300gb的数据,这些数据以三元组存储(以防止数据丢失)。当系统上线时,这个数据集将以每天大约250mb的速度增长。将所有这些文件上传到hdfs需要…一段时间。
现在来回答我的问题:
当docker启动或停止某些容器时,hdfs将如何工作。它还能保证不会丢失任何数据吗。重新同步一个新节点不需要很长时间吗?很可能我是从错误的Angular 来看待这个问题的。我从来没有这样做过,所以如果我走错了路,请告诉我。
ps:如果这是一个有点长/模糊的问题,我很抱歉。但就像我说的,这对我来说是一个未知的领域,所以我正在寻找一些能为我指明正确方向的东西,谷歌只给了我一些信息,但它的信息仅限于Yarn和hadoop本身
暂无答案!
目前还没有任何答案,快来回答吧!