在hbase中使用mapreduce计算平均计数

qc6wkl3g  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(511)

我有一张table叫 Log 其中每一行表示单个活动,并且具有如下表结构
info:date, info:ip_address, info:action, info:info
数据示例如下
列族:信息
日期| ip地址|行动|信息
2014年3月3日| 191.2.2.2 |删除| blabla
2014年3月4日| 191.2.2.3 |视图| blabla
2014年3月5日| 191.2.2.4 |创建| blabla
2014年3月3日| 191.2.2.5 |删除| blabla
2014年3月4日| 191.2.2.5 |创建| blabla
2014年3月4日| 191.2.2.6 |删除| blabla
我想做的是根据时间计算总活动的平均值。首先要做的是根据时间计算总活动:
时间|总|活动
2014年3月3日| 2
2014年3月4日| 3
2014年3月5日| 1
然后,我想计算总活动的平均值,输出将表示为
(2 + 3 + 1) / 3 = 2
如何使用mapreduce在hbase中执行此操作?我已经在想,仅仅使用一个减速机就可以计算出基于时间的活动总量。
谢谢

n6lpvg4x

n6lpvg4x1#

建议您考虑一下烫伤-这是编写生产hadoop作业的最简单、最快速的方法,可以轻松地与hbase等绑定。下面是一个帮助hbase和烫伤的项目https://github.com/parallelai/spyglass/blob/master/src/main/scala/parallelai/spyglass/hbase/example/simplehbasesourceexample.scala
然后看一下烫手山芋的api,找出如何做你想做的事情:https://github.com/twitter/scalding/wiki/fields-based-api-reference

相关问题