storm和hadoop相比怎么样?hadoop似乎是开源大规模批处理的实际标准,storm比hadoop有什么优势吗?还是完全不同?
juud5qan1#
storm用于快速数据(实时),hadoop用于大数据(已有大量数据)。storm不能处理大数据,但可以生成大数据作为输出。
jmp7cifd2#
你为什么不说出你的意见呢。http://www.infoq.com/news/2011/09/twitter-storm-real-time-hadoop/http://engineering.twitter.com/2011/08/storm-is-coming-more-details-and-plans.htmltwitter风暴被吹捧为实时hadoop。这更像是为了方便消费而采取的营销手段。它们表面上很相似,因为它们都是分布式应用程序解决方案。除了典型的分布式体系结构元素,如主/从、基于管理员的协调之外,对我来说,这种比较是一落千丈的。twitter更像是处理数据的管道。管道是连接接收数据、计算和传递输出的各种计算节点的东西(有行话是喷口和螺栓)扩展这个类比到一个复杂的管道布线,可以重新设计时,需要和你得到twitter风暴。在nutshell中,它处理数据。没有延迟。hadoop在这方面的不同主要是由于hdfs。它是一种面向分布式存储的解决方案,能够承受多种规模(磁盘、机器、机架等)的停机构建m/r是为了利用hdfs上的数据本地化来分发计算作业。总之,它们不能提供实时数据处理的工具。但当您查看大数据时,这并不总是一个要求(大海捞针(比喻)简而言之,twitter storm是一个分布式实时数据处理解决方案。我认为我们不应该比较它们。twitter之所以建立它,是因为它需要一个设备来处理小的tweet,但数量庞大,而且是实时的。看:如果你被迫把它与某件事作比较的话
b4lqfgs43#
我使用storm已经有一段时间了,现在我放弃了这项非常好的技术,转而使用一项惊人的技术:spark(http://spark.apache.org)它为开发人员提供了一个用于批处理或流处理(微批处理)以及机器学习和图形处理的统一api。值得一试。
quhf5bfb4#
apachestorm是一个免费的开源分布式实时计算系统。storm使得可靠地处理无限的数据流变得很容易,实现了hadoop对批处理的实时处理。由于hadoop生态系统中存在许多子系统,我们必须根据特定系统的业务需求和可行性来选择合适的子系统。hadoopmapreduce对于一次批处理一个作业非常有效。这就是为什么hadoop被广泛用作数据仓库工具而不是数据分析工具的原因。既然这个问题只与“storm”和“hadoop”有关,那就看看storm的用例吧——金融服务、电信、零售、制造、运输。hadoopmapreduce最适合批处理。storm是一个完整的流处理引擎,可用于实时数据分析,延迟时间为亚秒。看看这篇dezyre文章,比较hadoop、storm和spark。它解释了相同点和不同点。它可以概括为以下图片(从 dezyre 文章)
dezyre
a14dhokn5#
与其进行比较,不如将它们相互补充,现在采用批处理+实时(伪实时)处理。有一个相应的视频演示-特德邓宁在twitter的风暴
jaql4c8m6#
基本上,它们都用于分析大数据,但storm用于实时处理,hadoop用于批处理。这是一个非常好的风暴介绍,我发现:点击这里
6条答案
按热度按时间juud5qan1#
storm用于快速数据(实时),hadoop用于大数据(已有大量数据)。storm不能处理大数据,但可以生成大数据作为输出。
jmp7cifd2#
你为什么不说出你的意见呢。
http://www.infoq.com/news/2011/09/twitter-storm-real-time-hadoop/
http://engineering.twitter.com/2011/08/storm-is-coming-more-details-and-plans.html
twitter风暴被吹捧为实时hadoop。这更像是为了方便消费而采取的营销手段。
它们表面上很相似,因为它们都是分布式应用程序解决方案。除了典型的分布式体系结构元素,如主/从、基于管理员的协调之外,对我来说,这种比较是一落千丈的。
twitter更像是处理数据的管道。管道是连接接收数据、计算和传递输出的各种计算节点的东西(有行话是喷口和螺栓)扩展这个类比到一个复杂的管道布线,可以重新设计时,需要和你得到twitter风暴。
在nutshell中,它处理数据。没有延迟。
hadoop在这方面的不同主要是由于hdfs。它是一种面向分布式存储的解决方案,能够承受多种规模(磁盘、机器、机架等)的停机
构建m/r是为了利用hdfs上的数据本地化来分发计算作业。总之,它们不能提供实时数据处理的工具。但当您查看大数据时,这并不总是一个要求(大海捞针(比喻)
简而言之,twitter storm是一个分布式实时数据处理解决方案。我认为我们不应该比较它们。twitter之所以建立它,是因为它需要一个设备来处理小的tweet,但数量庞大,而且是实时的。
看:如果你被迫把它与某件事作比较的话
b4lqfgs43#
我使用storm已经有一段时间了,现在我放弃了这项非常好的技术,转而使用一项惊人的技术:spark(http://spark.apache.org)它为开发人员提供了一个用于批处理或流处理(微批处理)以及机器学习和图形处理的统一api。
值得一试。
quhf5bfb4#
apachestorm是一个免费的开源分布式实时计算系统。storm使得可靠地处理无限的数据流变得很容易,实现了hadoop对批处理的实时处理。
由于hadoop生态系统中存在许多子系统,我们必须根据特定系统的业务需求和可行性来选择合适的子系统。
hadoopmapreduce对于一次批处理一个作业非常有效。这就是为什么hadoop被广泛用作数据仓库工具而不是数据分析工具的原因。
既然这个问题只与“storm”和“hadoop”有关,那就看看storm的用例吧——金融服务、电信、零售、制造、运输。
hadoopmapreduce最适合批处理。
storm是一个完整的流处理引擎,可用于实时数据分析,延迟时间为亚秒。
看看这篇dezyre文章,比较hadoop、storm和spark。它解释了相同点和不同点。
它可以概括为以下图片(从
dezyre
文章)a14dhokn5#
与其进行比较,不如将它们相互补充,现在采用批处理+实时(伪实时)处理。有一个相应的视频演示-特德邓宁在twitter的风暴
jaql4c8m6#
基本上,它们都用于分析大数据,但storm用于实时处理,hadoop用于批处理。
这是一个非常好的风暴介绍,我发现:点击这里