我为mr工作做了一些分析,发现获取下一条记录进行表扫描需要大约30%的mapper时间。据我所知,scanner按照 scan.setCaching 然后在本地迭代它们。我能做些什么来最小化缓存加载时间吗?这是扫描设置不正确的信号吗?当前设置:
scan.setCaching
scan caching = 100 record size = ~5kb cf block size = ~130kb, compression=gz
我想到了一个在后台执行预取的自定义表记录读取器。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!