从oracle获取数据并在emr集群中使用spark进行处理

ybzsozfc  于 2021-06-03  发布在  Sqoop
关注(0)|答案(1)|浏览(312)

我有一个oracle表,大约有30个表。我想将这些表中特定时间段的数据转储到emr集群中,并对数据运行配置单元查询。我想使用spark和aws emr来执行此操作。这将是需要每4小时运行一次的计划作业。获取的数据量大约为100条记录(每4小时一次)。如何从oracle获取数据并对数据运行配置单元查询?

cclgggtu

cclgggtu1#

我想添加一个评论,但没有足够的点,所以我写在这里。
如果我理解正确的话,你想每4小时从oracle获取+/-100行,对吗?如果是这样的话,你为什么要用spark或hive来做呢?您不能简单地在oracle中直接创建一个视图,每4小时使用这100行并直接查询它吗?问题是,如果数据适合您的单机,并且预计不会快速增长,那么您就不需要任何分布式解决方案。

相关问题