小文件的多Map器

z31licg0 于 2021-06-04 发布在 Hadoop

关注(0)|答案(0)|浏览(256)

我正在开发一个基于hive的etl应用程序。一个功能需求是将hive中的一些数据导出到teradata（这是正在使用的现有解决方案），反之亦然。我的问题与出口有关。
我使用sqoop和teradata连接器来导出hdfs文件。有些文件虽然有10万条记录，但非常小，只有7兆字节。所以sqoop在执行导出时只使用一个Map器（我指定了-m选项，但它不起作用）。这是一个相当缓慢的过程。
有没有办法在集群中的多个Map器之间划分单个文件（小于hdfs块大小）中的数据？
（由于sqoop在Map器之间划分行，所以导入速度很快，这已经成为一个比较点，我必须使导出工作更快）
edit:- software 版本：
hadoop:mapr m3-hadoop 0.20
sqoop:1.4.2
用于sqoop的teradata连接器：1.0.5

Java hadoop hdfs sqoop teradata

来源：https://stackoverflow.com/questions/14367136/multiple-mappers-for-small-file

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

小文件的多Map器

暂无答案！

相关问题

热门标签

最新问答