我正在开发一个基于hive的etl应用程序。一个功能需求是将hive中的一些数据导出到teradata(这是正在使用的现有解决方案),反之亦然。我的问题与出口有关。
我使用sqoop和teradata连接器来导出hdfs文件。有些文件虽然有10万条记录,但非常小,只有7兆字节。所以sqoop在执行导出时只使用一个Map器(我指定了-m选项,但它不起作用)。这是一个相当缓慢的过程。
有没有办法在集群中的多个Map器之间划分单个文件(小于hdfs块大小)中的数据?
(由于sqoop在Map器之间划分行,所以导入速度很快,这已经成为一个比较点,我必须使导出工作更快)
edit:- software 版本:
hadoop:mapr m3-hadoop 0.20
sqoop:1.4.2
用于sqoop的teradata连接器:1.0.5
暂无答案!
目前还没有任何答案,快来回答吧!