--check-column (col) #Specifies the column to be examined when determining which rows to import.
--incremental (mode) #Specifies how Sqoop determines which rows are new. Legal values for mode include append and lastmodified.
--last-value (value) Specifies the maximum value of the check column from the previous import.
sqoop import \
--query 'SELECT a.*, b.* FROM a JOIN b on (a.id == b.id) WHERE $CONDITIONS' \
--split-by a.id --target-dir /user/foo/joinresults
sqoop import \
--query 'SELECT a.*, b.* FROM a JOIN b on (a.id == b.id) WHERE $CONDITIONS' \
-m 1 --target-dir /user/foo/joinresults
1条答案
按热度按时间ttcibm8c1#
您需要一个唯一的键或时间戳字段来标识delta,它是您案例中新的1000条记录。使用该字段,您必须选择将数据引入hadoop的选项。
方案1
是使用sqoop的增量追加,下面是它的例子
论据:
方案2
使用
--query
参数,其中可以使用mysql/连接到的任何数据库的本机sql。例子: