cassandra+宽列pig

c9x0cxw0 于 2021-06-21 发布在 Pig

关注(0)|答案(1)|浏览(311)

我目前正在开发一个推荐应用程序，我正在使用cassandra和hadoop以及pig进行map/reduce作业。为了利用列名属性，我们的团队决定使用无值列和聚合列名来存储数据，例如，特定内容的所有命中都存储在具有单行的列族中，并且每列都是使用以下结构的内容的命中：

rowkey = 'single_row' {
    id_content:hit_date, -
    .
    .
    .
}

使用这种模式，我们可以获得宽行而不是窄行；问题是，为了用这个模式在cassandra中存储数据，我需要如何操作pig中的数据？

1条答案

从您的评论中，我不确定您是在使用复合列，还是只是在连接id\u内容和命中日期。
对于普通（即非复合）列，架构为：

(key, {(col_name, col_value), ...})

对于复合列，我认为模式如下：

(key, {((col_name_part_1, col_name_part_2), col_value), ...})

此评估（针对复合列）基于阅读上提交的修补程序https://issues.apache.org/jira/browse/cassandra-3684