我读过几篇文章,认为hadoop实际上只设计用于单个物理位置的集群,而不是用于大量分布广泛的节点(例如,通过internet从多个站点运行分布式集群)。有没有人有过跨多个站点使用hadoop的实际经验?我会遇到什么样的问题?或者我最好使用一个不同的框架(例如boinc)。
r7s23pms1#
如果在一组相对本地的节点上执行与在一组分布广泛的节点上执行有任何区别,那么在节点之间来回移动大量数据所需的时间就会增加。如果您有一个涉及到处理、聚合和连接大量数据的问题,那么您就必须在节点之间发送大量数据。这意味着无论您选择什么平台(hadoop、storm等),您都必须处理这个问题。boinc或其他一些基于志愿者的系统可能更便宜,但您的实现仍然会受到高数据传输成本的影响。此外,您可能会在混合中引入节点异构性,这将使您的实现更易于开发和调试。顺便说一下,hadoop和boinc是两种截然不同的动物,它们解决的问题截然不同。
1条答案
按热度按时间r7s23pms1#
如果在一组相对本地的节点上执行与在一组分布广泛的节点上执行有任何区别,那么在节点之间来回移动大量数据所需的时间就会增加。如果您有一个涉及到处理、聚合和连接大量数据的问题,那么您就必须在节点之间发送大量数据。这意味着无论您选择什么平台(hadoop、storm等),您都必须处理这个问题。boinc或其他一些基于志愿者的系统可能更便宜,但您的实现仍然会受到高数据传输成本的影响。此外,您可能会在混合中引入节点异构性,这将使您的实现更易于开发和调试。
顺便说一下,hadoop和boinc是两种截然不同的动物,它们解决的问题截然不同。