来自mongodb的背景,我们倾向于根据星期将数据的摄取分成多个集合(其中包含相同类型的数据)。这完全取决于我们指数的表现。考虑一下在cassandra中对同一个概念进行建模,是否值得做同样的事情并基于时间段创建多个表?所以也许每周的餐桌又来了。有什么绩效提升吗?我也问这个问题,因为我对hadoop集成的研究,我可能只想Map/减少某个星期的数据,而不是所有的数据,从我所知道的,这是隔离我们想要Map的数据的最好方法。提前感谢您对此的任何意见。
k5hmc34c1#
随着Cassandra的工作,你已经有了。cassandra中的节点持有许多pk(分区键)及其数据。如果你选择一个每周pk数据,你会被排序。cassandra将把该特定pk的所有数据放在一个节点中。当您查询时,cassandra知道哪个节点保存该pk的数据。它将只查询该节点并检索数据。所以Cassandra会按你的要求做。
yr9zkbsy2#
这是没有必要的。但是,需要注意的是,不应该在cassandra中使用二级索引,应该对数据进行建模,以匹配正在执行的查询。如果您经常希望每周执行一次操作,那么您可能希望按周存储数据。也就是说,每个分区有1周的数据(一个分区可以包含多行)您可能会发现,浏览几个月前拍摄的Cassandra视频介绍会很有帮助:https://www.youtube.com/watch?v=w45ysb9b6oe
2条答案
按热度按时间k5hmc34c1#
随着Cassandra的工作,你已经有了。cassandra中的节点持有许多pk(分区键)及其数据。如果你选择一个每周pk数据,你会被排序。cassandra将把该特定pk的所有数据放在一个节点中。
当您查询时,cassandra知道哪个节点保存该pk的数据。它将只查询该节点并检索数据。所以Cassandra会按你的要求做。
yr9zkbsy2#
这是没有必要的。但是,需要注意的是,不应该在cassandra中使用二级索引,应该对数据进行建模,以匹配正在执行的查询。
如果您经常希望每周执行一次操作,那么您可能希望按周存储数据。也就是说,每个分区有1周的数据(一个分区可以包含多行)
您可能会发现,浏览几个月前拍摄的Cassandra视频介绍会很有帮助:https://www.youtube.com/watch?v=w45ysb9b6oe