我有一个csv文件,表示一个大的矩阵,我希望将其上载到apachehbase示例(在aws emr上运行,但这不重要)。csv包含~15000列和~50000行。矩阵的单元格值是整数。
csv如下所示:
ROW_KEY col1 col2 col3 .... col15000
row1 0 1 125 456
row2 23 23 45 ...
row3 ... ... ...
...
row50000
我计划将hbase模式保存在一个列族中,每个列(col1、col2等)都作为列限定符。
我已经研究过在python脚本中迭代csv并使用happybase之类的工具上传每一行,但这似乎需要相当长的时间。
我已经研究了importtsv工具,但该工具似乎需要一个参数来详细说明所有列名,例如:
Dimporttsv.columns=HBASE_ROW_KEY,cf1:name,cf2:exp
在args中详细说明数以万计的列似乎不是一个好的解决方案。
暂无答案!
目前还没有任何答案,快来回答吧!