sqoop并行文档-矛盾?

gkn4icbw  于 2021-07-15  发布在  Hadoop
关注(0)|答案(0)|浏览(257)

我对sqoop关于性能的文档感到矛盾,这在我的大学引起了无休止的讨论。
给出下表:

  1. +-------------------+--------------+------+-----+---------+----------------+
  2. | Field | Type | Null | Key | Default | Extra |
  3. +-------------------+--------------+------+-----+---------+----------------+
  4. | customer_id | int(11) | NO | PRI | NULL | auto_increment |
  5. | customer_fname | varchar(45) | NO | | NULL | |
  6. | customer_lname | varchar(45) | NO | | NULL | |
  7. | customer_email | varchar(45) | NO | | NULL | |
  8. | customer_password | varchar(45) | NO | | NULL | |
  9. | customer_street | varchar(255) | NO | | NULL | |
  10. | customer_city | varchar(45) | NO | | NULL | |
  11. | customer_state | varchar(45) | NO | | NULL | |
  12. | customer_zipcode | varchar(45) | NO | | NULL | |
  13. +-------------------+--------------+------+-----+---------+----------------+

ps:主键是均匀分布的。
以及以下命令:
命令1:

  1. sqoop import
  2. --connectjdbc:mysql://quickstart:3306/retail_db
  3. --table customers
  4. --warehouse-dir /user/datalake/transient/retail
  5. --username root
  6. --password root

来自大学材料的结果:

我的结果:

  1. 21/02/10 04:49:39 INFO mapreduce.ImportJobBase: Transferred 931.1768 KB in 29.6699 seconds (31.3845 KB/sec)
  2. 21/02/10 04:49:39 INFO mapreduce.ImportJobBase: Retrieved 12435 records.

命令2:

  1. sqoop import
  2. --connect jdbc:mysql://quickstart:3306/retail_db
  3. --table customers
  4. --warehouse-dir /user/datalake/transient/retail
  5. --split-by customer_id
  6. --username root
  7. --password root

来自大学材料的结果:

我的结果:

  1. 21/02/10 04:51:56 INFO mapreduce.ImportJobBase: Transferred 931.1768 KB in 27.1372 seconds (34.3137 KB/sec)
  2. 21/02/10 04:51:56 INFO mapreduce.ImportJobBase: Retrieved 12435 records.

sqoop版本:1.4.6-cdh5.13.0
教师:
使用命令2,指定--split by,应该可以获得性能提升。
事实上就是这样。然而,在实践中,两个命令是相同的,为什么会发生这种情况?
我读过的每一篇文献都证实了我的理论。
[…]默认情况下,sqoop将标识表中的主键列(如果存在),并将其用作拆分列。[…]如果主键的实际值在其范围内分布不均匀,则可能导致任务不平衡。您应该使用--split by参数显式选择不同的列。[…]请参阅原始引用
任何帮助都将不胜感激。谢谢。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题