我目前正在开发一个推荐应用程序,我正在使用cassandra和hadoop以及pig进行map/reduce作业。为了利用列名属性,我们的团队决定使用无值列和聚合列名来存储数据,例如,特定内容的所有命中都存储在具有单行的列族中,并且每列都是使用以下结构的内容的命中:
rowkey = 'single_row' {
id_content:hit_date, -
.
.
.
}
使用这种模式,我们可以获得宽行而不是窄行;问题是,为了用这个模式在cassandra中存储数据,我需要如何操作pig中的数据?
1条答案
按热度按时间but5z9lq1#
从您的评论中,我不确定您是在使用复合列,还是只是在连接id\u内容和命中日期。
对于普通(即非复合)列,架构为:
对于复合列,我认为模式如下:
此评估(针对复合列)基于阅读上提交的修补程序https://issues.apache.org/jira/browse/cassandra-3684