我正在尝试使用来自cdh5的sqoop传输将大型postgresql表导入hdfs。整张table大约15克。
首先,我尝试只使用基本信息导入,通过输入schema和table name,没有成功。我总是被超出gc开销限制。我尝试将yarn和sqoop的cloudera管理器配置上的jvm堆大小更改为最大值(4g),但仍然没有任何帮助。
然后,我尝试使用sqoop transfer sql语句来传输表的一部分,我在字段中添加了如下sql语句:select*from mytable where id>1000000 and id<2000000${conditions}(partition column is id)。语句失败,实际上任何一种带有我自己的“where”条件的语句都有错误:“generic\u jdbc\u connector\u 0002:cannot to execute the sql statement”
我也尝试过使用边界查询,我可以使用“select min(id),1000000 from mutable”,它起了作用,但是我尝试使用“select 1000000,2000000 from mytable”来选择前面的数据,这导致了sqoop服务器崩溃和停机。
有人能帮忙吗?如何添加where条件?或者如何使用边界查询。我找了很多地方,没有找到关于如何用sqoop2编写sql语句的好文档。也可以直接在sqoop2上使用吗?
谢谢
暂无答案!
目前还没有任何答案,快来回答吧!