全部,我有一个关于sqooping的问题,我正在为一个表sqooping大约2tb的数据,然后需要用它来编写orc表。最好的方法是什么1) sqoop将dir1中的所有数据作为文本,并写入hql以加载到orc表中,其中脚本因顶点问题而失败2) 将sqoop数据放入chuck并处理并附加到hive表中(您完成了吗?)3) sqoop配置单元导入将所有数据写入配置单元orc表哪种方法最好?
i7uaboj41#
选项三会更好,因为您不需要创建一个配置单元表,然后再次将数据加载到其中并以orc格式存储该数据对于2tb的数据来说是一个漫长的过程,因此最好使用sqoop,这样它就可以直接将数据推送到具有orc格式的配置单元表中,但是当您将数据从配置单元表返回到rdbms时,您必须使用斯库普塞德
1条答案
按热度按时间i7uaboj41#
选项三会更好,因为您不需要创建一个配置单元表,然后再次将数据加载到其中并以orc格式存储该数据对于2tb的数据来说是一个漫长的过程,因此最好使用sqoop,这样它就可以直接将数据推送到具有orc格式的配置单元表中,但是当您将数据从配置单元表返回到rdbms时,您必须使用斯库普塞德