我必须建立一个工具来处理我们的数据存储从hbase(hfiles)到Parquet格式的hdfs。请建议将数据从hbase表移动到parquet表的最佳方法之一。我们必须把4亿张唱片从hbase搬到parquet。如何实现这一点?移动数据的最快方法是什么?提前谢谢。当做,帕迪普·夏尔玛。
gdx19jrr1#
我最近向hbase公开了一个补丁,它解决了您描述的问题。请看这里:https://github.com/ibm-research-ireland/hbaquet
t2a7ltrp2#
请看一下这个项目tmalaska/hbase tohdfs,它读取hbase表并将其写为text、seq、avro或parquet
将数据导出到parquet
hadoop jar HBaseToHDFS.jar ExportHBaseTableToParquet exportTest c export.parquet false avro.schema
2条答案
按热度按时间gdx19jrr1#
我最近向hbase公开了一个补丁,它解决了您描述的问题。请看这里:https://github.com/ibm-research-ireland/hbaquet
t2a7ltrp2#
请看一下这个项目tmalaska/hbase tohdfs,它读取hbase表并将其写为text、seq、avro或parquet
Parquet地板的用法示例:
将数据导出到parquet