docker/虚拟化和hdfs

5f0d552i 于 2021-06-03 发布在 Hadoop

关注(0)|答案(0)|浏览(165)

我目前从事的项目使用一个小型hadoop集群来迭代大约300gb的数据。对这些数据进行分析，并填充一个mongodb，稍后由我们的系统使用。
现在hadoop集群运行在4台物理机器上（旧的dellprecisiont3500）。对于测试这是一个伟大的设置，因为我可以很容易地互动，安装和测试的机器。但很明显，当程序发布时，这是不太理想的。对于这一步，最理想的结果是虚拟化hadoop。将它分布在一组可以在集群中运行的docker容器上。
在互联网上搜索时，很快就发现hadoop可以在这样的环境中运行。大多数搜索结果都涉及yarn和实际的hadoop示例以及如何启动它们。这很好，但我想知道：hdfs会发生什么。
在我当前的测试设置中，hdfs包含300gb的数据，这些数据以三元组存储（以防止数据丢失）。当系统上线时，这个数据集将以每天大约250mb的速度增长。将所有这些文件上传到hdfs需要…一段时间。
现在来回答我的问题：
当docker启动或停止某些容器时，hdfs将如何工作。它还能保证不会丢失任何数据吗。重新同步一个新节点不需要很长时间吗？很可能我是从错误的Angular 来看待这个问题的。我从来没有这样做过，所以如果我走错了路，请告诉我。
ps：如果这是一个有点长/模糊的问题，我很抱歉。但就像我说的，这对我来说是一个未知的领域，所以我正在寻找一些能为我指明正确方向的东西，谷歌只给了我一些信息，但它的信息仅限于Yarn和hadoop本身

hadoop hdfs docker

来源：https://stackoverflow.com/questions/33517571/docker-virtualisation-and-hdfs

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

docker/虚拟化和hdfs

暂无答案！

相关问题

热门标签

最新问答