sqoop从rdbms到hadoop的转换速度有多快?

kmbjn2e3  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(420)

有人能告诉我,sqoop一次能以多快的速度传输20亿个记录吗。我知道它一定很快,因为sqoop是并行运行的,在hadoop上会产生一些输入和一些文件输出。但是我想知道speed mapreduce一次传输20亿条记录的细节。

dzhpxtsq

dzhpxtsq1#

您需要了解将数据从rdbms快速传输到hadoop的要点。
Map器数量:
增加Map器的数量将提高您的速度,因为它将任务划分为多个部分并并行执行导入。
Map器上的平衡负载:
您需要在统一的列上拆分(首选整数)。它将为所有Map器提供均衡的负载,传输速度更快。
rdbms连接数:
你不能盲目地增加Map绘制者的数量(比如100或更多)。您的rdbms应该允许这些并发连接,否则它将成为rdbms方面的瓶颈。
使用 --Direct 模式:
如果sqoop为特定rdbms提供了直接连接器,那么应该使用它。它会使转移更快。
简而言之,sqoop的速度足够快,可以传输数十亿条记录,只要在编写import命令时记住这些点就行了。

相关问题