我有一个数据集(csv),它有三个值列(v1、2和3)和一个值。值的描述以逗号分隔的字符串形式存储在“keys”列中。
| v1 | v2 | v3 | keys |
| A | C | E | X,Y,Z |
使用pig,我希望将此信息加载到hbase表中,其中列族是c,列限定符是键。
| C:X | C:Y | C:Z |
| A | C | E |
以前有没有人这样做过,并且愿意分享这些知识?
另一种选择是在hbase列中存储map(key#value)。但我不确定这对于查询数据是否灵活?
2条答案
按热度按时间jfgube3f1#
找到了解决我问题的办法
试验Pig:
数据.py:
x9ybnkn62#
这是处理多结构模式时的常见问题。如果你真的想尝试这种Map类型,那么这是一个坏主意。
你可以用mapreduce试试这个。mapreduce是最好的解决方案。