在给定的时间,我的应用程序中有一个用户文件系统(apachecmis)。随着它越来越大,我怀疑是否要转向hadoop(hdfs),因为我们还需要对它运行一些统计数据。问题是:当前的文件系统提供了文件的版本控制。当我读到hadoop-hdfs-和文件版本控制时,我发现大部分时间我必须自己编写这个(版本控制)层。在hdfs中是否已经有了可以用来管理文件版本控制的工具,或者我真的必须自己编写它(不想重新发明热水器,但也找不到合适的解决方案)。
回答
有关详细信息,请参阅下面对答案的评论
hadoop(hdfs)不支持文件的版本控制。当您将hadoop与(amazon)s3结合使用时,您可以获得这个功能:hadoop将使用s3作为文件系统(没有chuncks,但是恢复将由s3提供)。这个解决方案附带了s3提供的文件版本控制。hadoop仍将使用yarn进行分布式处理。
2条答案
按热度按时间uklbhaso1#
hdfs支持快照。我认为这已经接近于使用hdfs进行“版本控制”了。
fiei3ece2#
hdfs无法进行版本控制。
相反,您可以使用amazons3,它提供了版本控制,并且与hadoop兼容。