不同系统之间的大数据传输

luaexgnf  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(294)

我们将不同的数据集放入不同的系统中,比如hadoop、cassandra、mongodb。但是我们的分析团队想要从不同的系统中获得缝合的数据。例如,具有人口统计信息的客户信息将在一个系统中,他们的交易将在另一个系统中。分析应该能够查询得到数据,如从美国用户什么是交易量。我们需要开发一个应用程序来提供与不同系统交互的简便方法。最好的方法是什么?
另一个要求:如果我们想在mongodb这样的系统中提供他们的定制工作区,他们可以很容易地将其放置在一起。按需将数据从一个系统拉到另一个系统的最佳策略是什么?
任何用于解决这类问题的指针或通用体系结构都将非常有用。

eqqqjvef

eqqqjvef1#

我看到两个问题:
如何将不同系统的数据整合到一个系统中?
如何在mongo中创建一些数据供人们进行实验?
我们开始…=)
我会选择一个系统并将其作为整合的目标。换句话说,在hadoop、cassandra和mongodb之间,您的团队对哪一个最有经验?你觉得哪一个最容易查询?你设置了哪一个可以很好地扩展?
每一种方法在可扩展性、存储性和可查询性方面都有优缺点。
我会选一个,然后把所有的数据注入那个系统。在最近的一份工作中,那是mongodb。将数据移动到mongo很容易,而且它拥有迄今为止最好的查询语言。它还有一个很棒的社区,设置节点比hadoop更容易,等等。
一旦解决了(1),就可以修剪数据集并创建一个缩小的沙盒,供人们对其运行特殊查询。那就是我的方法。您不想支持整个数据集,因为它可能太昂贵和复杂。
如果在关系数据库中执行此操作,我会说只需运行 select top 1000 * from [table] 查询每个表并使用这些数据供人们使用。

相关问题