低效的hbase记录读取器

3ks5zfa0 于 2021-06-02 发布在 Hadoop

关注(0)|答案(0)|浏览(250)

我为mr工作做了一些分析，发现获取下一条记录进行表扫描需要大约30%的mapper时间。据我所知，scanner按照 scan.setCaching 然后在本地迭代它们。

我能做些什么来最小化缓存加载时间吗？这是扫描设置不正确的信号吗？当前设置：

scan caching = 100
record size = ~5kb
cf block size = ~130kb, compression=gz

我想到了一个在后台执行预取的自定义表记录读取器。

目前还没有任何答案，快来回答吧！

相关问题