小文件的多Map器

z31licg0  于 2021-06-04  发布在  Hadoop
关注(0)|答案(0)|浏览(256)

我正在开发一个基于hive的etl应用程序。一个功能需求是将hive中的一些数据导出到teradata(这是正在使用的现有解决方案),反之亦然。我的问题与出口有关。
我使用sqoop和teradata连接器来导出hdfs文件。有些文件虽然有10万条记录,但非常小,只有7兆字节。所以sqoop在执行导出时只使用一个Map器(我指定了-m选项,但它不起作用)。这是一个相当缓慢的过程。
有没有办法在集群中的多个Map器之间划分单个文件(小于hdfs块大小)中的数据?
(由于sqoop在Map器之间划分行,所以导入速度很快,这已经成为一个比较点,我必须使导出工作更快)
edit:- software 版本:
hadoop:mapr m3-hadoop 0.20
sqoop:1.4.2
用于sqoop的teradata连接器:1.0.5

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题