我知道没有办法更新现有的s3对象或hdfs文件系统上的文件。但是,我的数据源会定期更新新数据。
目前,我主要考虑jdbc数据源,但稍后还会有其他类型的数据源(例如:kafka流)。我想知道在云中存储这些大量数据的最佳解决方案是什么,这种方式可以让我在hadoop中快速地对其执行操作。
我想对它们执行复杂的sql查询(例如使用sparksql),还将对数据集执行某种ml算法。这些过程将由用户在web界面中启动。
据我所知,在hadoop中,动作可以相对快速地在s3对象上执行。
我的计划是只上传新数据(所以s3存储中还没有的数据)作为s3中的新对象版本。但我不确定我是否可以将一个对象的不同版本视为一个单独的对象,并在整个数据集上执行sql语句和ml操作,而不仅仅是单独在块上执行。
我是云技术的初学者。目前,只有数据存储部分是有趣的。如果我能更好地理解这一部分,我就可以更容易地计划剩下的部分。
你觉得呢?我能用s3存储类型实现吗?如果没有,你建议用什么方法?
谢谢。
暂无答案!
目前还没有任何答案,快来回答吧!