有没有一种方法可以像处理单个对象一样处理一个s3对象的多个版本？

3wabscal 于 2021-07-13 发布在 Spark

关注(0)|答案(0)|浏览(153)

我知道没有办法更新现有的s3对象或hdfs文件系统上的文件。但是，我的数据源会定期更新新数据。
目前，我主要考虑jdbc数据源，但稍后还会有其他类型的数据源（例如：kafka流）。我想知道在云中存储这些大量数据的最佳解决方案是什么，这种方式可以让我在hadoop中快速地对其执行操作。
我想对它们执行复杂的sql查询（例如使用sparksql），还将对数据集执行某种ml算法。这些过程将由用户在web界面中启动。
据我所知，在hadoop中，动作可以相对快速地在s3对象上执行。
我的计划是只上传新数据（所以s3存储中还没有的数据）作为s3中的新对象版本。但我不确定我是否可以将一个对象的不同版本视为一个单独的对象，并在整个数据集上执行sql语句和ml操作，而不仅仅是单独在块上执行。
我是云技术的初学者。目前，只有数据存储部分是有趣的。如果我能更好地理解这一部分，我就可以更容易地计划剩下的部分。
你觉得呢？我能用s3存储类型实现吗？如果没有，你建议用什么方法？
谢谢。

hadoop hdfs apache-spark amazon-s3 apache-flink

来源：https://stackoverflow.com/questions/66091667/is-there-a-way-to-handle-multiple-versions-of-an-s3-object-as-if-it-were-one-sin

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

有没有一种方法可以像处理单个对象一样处理一个s3对象的多个版本？

暂无答案！

相关问题

热门标签

最新问答