快速变化的大数据处理

b4lqfgs4  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(214)

我的团队面临以下困境,我们需要一些架构/资源建议:
注:我们的数据是半结构化的
总体任务:
我们有一个半大的数据,我们在白天处理
每天这个“过程”一天执行1-5次
每个“过程”需要30分钟到5小时
半大数据=~100万行
在这个过程中,每一行都会被更新1-10次
在这个更新过程中,当我们为ui聚合这些行时,所有其他行都可能更改
我们目前的工作:
我们目前的系统功能强大,但价格昂贵且前后矛盾
我们使用sqldb来存储所有数据,并根据流程需要进行检索/更新
未解决的问题和预期目标:
由于这个过程是由用户触发的,我们永远不知道何时进行放大/缩小,这会导致高峰值,而且如果没有数据仓库,azure也不容易根据需求进行自动缩放,因为缺少聚合和其他各种“错误”问题,我们希望远离数据仓库
由于db的io恒定,当一个进程开始时,我们达到了100%的dtu(我们使用的是azure p1 db),这当然会迫使我们在多个进程同时开始时变得更大(这很可能)
然而,我们理解高计算任务带来的成本,我们认为有更好的方法来实现这一点(sql大约优化了99%,还有很多事情要做)
我们正在寻找能够:
快速处理大量交易
可以处理大量数据的不断更新
支持所有主要聚合
是“合理”的价格(我知道这是一个有争议的关键字,只是轻描淡写…)
考虑过的:
ApacheSpark
我们在hdp方面没有太多的经验,所以这里的任何优点/缺点肯定是有用的(用例是否适合这个工具??)
阿兰戈德
似乎很有希望。。看起来很快而且有我们需要的所有聚合。。
azure数据仓库
我们遇到了太多的问题,只是不适合我们。
任何gpu加速计算或一些其他高端的想法也欢迎。
我们有一个功能齐全的系统,无论走哪条路,我们都必须做出调整,因此很难尝试所有的方法,并比较哪一条最适合我们。
因此,在我们扣动扳机之前,任何先入为主的意见都是受欢迎的。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题