我想在Pig的Map上数一数钥匙的数目。我可以写一个自定义项来做这个,但我希望有一个更简单的方法。
data = LOAD 'hbase://MARS1'
USING org.apache.pig.backend.hadoop.hbase.HBaseStorage(
'A:*', '-loadKey true -caching=100000')
AS (id:bytearray, A_map:map[]);
在上面的代码中,我想基本上构建一个 id
列族中有多少项 A
那把钥匙坏了。
在希望中,我试着 c = FOREACH data GENERATE id, COUNT(A_map);
但这并不奇怪。
或者,也许有人可以提出一个更好的方法来完全做到这一点。如果我不能很快弄明白这一点,我就编写一个javamapreduce作业或pig udf。
1条答案
按热度按时间pjngdqdw1#
尺码显然适合你(我自己没试过):
http://pig.apache.org/docs/r0.7.0/piglatin_ref2.html#size