清除aws emr以允许重用

qlzsbp2j  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(250)

我有几个任务,我正在执行的aws电子病历不共享数据,我想使用相同的电子病历来执行他们一个接一个。有没有办法将正在运行的emr清除回其初始状态(删除配置单元表、清除所有hdfs文件等)避免数据冲突?
我想重用emr有几个原因:
创建新的电子病历可能需要5-10分钟。
我的任务比较短,20-25分钟。
一旦创建了电子病历,您就已经支付了整整一个小时的费用。

jv4diomz

jv4diomz1#

我们没有找到一个“快速而干净”的api来实现这种行为。相反,我们整合了一个简单的工作方法来保证我们可以清理所有的数据。
我们使用特定的数据库而不是默认的数据库。
我们将所有内部数据文件放在hdfs中的特定位置。
因此,每次任务启动时,它首先删除这个特定的数据库(如果存在),然后重新创建它,并递归地删除hdfs中特定位置下的所有数据。

相关问题