我是说,有两种选择:1。在hadoop集群上安装hbase,hadoop集群也可以离线计算,所以只需要1个hadoop集群。2安装一个hadoop集群用于离线计算,然后安装另一个hadoop集群,仅用于hbase使用其hdfs。所以这两个选项是:一个是集成集群,另一个实际上是两个集群。这两种选择的优缺点是什么?
lnlaulya1#
备选方案1:综合集群。优点:mapreduce读取或写入hbase将更有效地作为数据位置。缺点:hbase区域服务器会降低机器的性能(datanode和tasktracker),因为它需要占用一些cpu和内存。如果存在许多mapreduce作业,则hbase延迟可能为秒。因此,如果您想及时做出hbase响应,您需要做更多的工作(例如,使用memcache来提高读取性能)。方案2:2个集群。问题:hbase区域服务器不会影响hdfs datenode和tasktracker的性能。缺点:如果要访问hbase,mapreduce需要远程读写数据。这个选项还需要更多的机器。
1条答案
按热度按时间lnlaulya1#
备选方案1:综合集群。
优点:mapreduce读取或写入hbase将更有效地作为数据位置。
缺点:hbase区域服务器会降低机器的性能(datanode和tasktracker),因为它需要占用一些cpu和内存。如果存在许多mapreduce作业,则hbase延迟可能为秒。因此,如果您想及时做出hbase响应,您需要做更多的工作(例如,使用memcache来提高读取性能)。
方案2:2个集群。
问题:hbase区域服务器不会影响hdfs datenode和tasktracker的性能。
缺点:如果要访问hbase,mapreduce需要远程读写数据。这个选项还需要更多的机器。