如何将宽(15000多列)csv上传到apachehbase示例

wgxvkvu9  于 2021-06-09  发布在  Hbase
关注(0)|答案(0)|浏览(247)

我有一个csv文件,表示一个大的矩阵,我希望将其上载到apachehbase示例(在aws emr上运行,但这不重要)。csv包含~15000列和~50000行。矩阵的单元格值是整数。
csv如下所示:

ROW_KEY col1 col2 col3 .... col15000
row1 0    1  125  456
row2 23   23  45  ...
row3 ...  ...  ...
...
row50000

我计划将hbase模式保存在一个列族中,每个列(col1、col2等)都作为列限定符。
我已经研究过在python脚本中迭代csv并使用happybase之类的工具上传每一行,但这似乎需要相当长的时间。
我已经研究了importtsv工具,但该工具似乎需要一个参数来详细说明所有列名,例如:

Dimporttsv.columns=HBASE_ROW_KEY,cf1:name,cf2:exp

在args中详细说明数以万计的列似乎不是一个好的解决方案。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题