我最近建立了一个 Hadoop
- Cloudera cluster
以及 Cassandra
具有2个节点的群集。我现在想做一些基准测试,收集一些关于资源使用的数据。我找了很多,发现 HiBench
以及 Cassandra
应力工具。我不想和其他系统比较,我想测量我自己的,但很难想象,我怎样才能得到真实和正确的价值观。群集由2个虚拟机组成,创建时使用 KVM
. Cassandra
在 Docker
容器。很难解释,如何分析这个系统,而不会得到错误的结果。
我最近建立了一个 Hadoop
- Cloudera cluster
以及 Cassandra
具有2个节点的群集。我现在想做一些基准测试,收集一些关于资源使用的数据。我找了很多,发现 HiBench
以及 Cassandra
应力工具。我不想和其他系统比较,我想测量我自己的,但很难想象,我怎样才能得到真实和正确的价值观。群集由2个虚拟机组成,创建时使用 KVM
. Cassandra
在 Docker
容器。很难解释,如何分析这个系统,而不会得到错误的结果。
2条答案
按热度按时间5n0oy7gb1#
一些评论
集群由2个虚拟机组成,使用kvm创建
如果您想对性能进行基准测试,请不要使用虚拟机。实际上,cassandra在磁盘上执行顺序写入以优化扫描操作。通过使用虚拟机和共享磁盘,顺序写入的好处就失去了,因为hypervisor可以在不同的磁盘扇区上重新排序和分派连续的数据,从而破坏了以前对顺序扫描的优化
另一种方法是确保每个vm都有一个专用磁盘。
如果你没有做性能基准测试,忽略上面的评论
第二个建议是,使用真实的数据集,例如不适合内存的大数据集,这样您就可以看到每种技术的行为。请阅读以下内容以了解更多详细信息:http://www.nextplatform.com/2016/02/19/the-myth-of-in-memory-computing/
fykwrbwg2#
您可以使用yahoo云服务基准来对您的cassandra集群进行基准测试。下面是指向它和相应git存储库的链接。
https://research.yahoo.com/news/yahoo-cloud-serving-benchmark/https网址:github.com/brianfrankcooper/ycsb
基准测试非常灵活,有许多参数可以更改,以充分了解集群的行为和属性。然而,这个框架的一个主要缺点是它默认使用随机数据。但是,您可以调整代码以将其用于您自己的数据,然后,它可能会满足您的需要。