将大型(200 gb)hbase表加载到rdd中,而无需进行hbase扫描

nom7f22z  于 2021-06-09  发布在  Hbase
关注(0)|答案(1)|浏览(238)

我想将一个大的(200GB)hbase表加载到rdd中,而不需要进行hbase扫描,即直接将hfiles读取到rdd中。
如果您能分享任何示例/示例代码(或链接到带有示例的网页)来展示hfileinputformat的使用,就像我发现的那些指向hfileinputformat源代码的代码一样,那将是非常好的。
不确定2012/2013年提到的危险是否仍然适用-http://qnalist.com/questions/155178/hfileinputformat-for-mapreduce

k4ymrczo

k4ymrczo1#

我找到这个是94美元。https://gist.github.com/ashwanthkumar/5133733
但危险仍然存在。如果同时发生压缩或区域分割,则会影响结果。

相关问题