快速变化的大数据处理

b4lqfgs4 于 2021-05-29 发布在 Hadoop

关注(0)|答案(0)|浏览(218)

我的团队面临以下困境，我们需要一些架构/资源建议：
注：我们的数据是半结构化的
总体任务：
我们有一个半大的数据，我们在白天处理
每天这个“过程”一天执行1-5次
每个“过程”需要30分钟到5小时
半大数据=~100万行
在这个过程中，每一行都会被更新1-10次
在这个更新过程中，当我们为ui聚合这些行时，所有其他行都可能更改
我们目前的工作：
我们目前的系统功能强大，但价格昂贵且前后矛盾
我们使用sqldb来存储所有数据，并根据流程需要进行检索/更新
未解决的问题和预期目标：
由于这个过程是由用户触发的，我们永远不知道何时进行放大/缩小，这会导致高峰值，而且如果没有数据仓库，azure也不容易根据需求进行自动缩放，因为缺少聚合和其他各种“错误”问题，我们希望远离数据仓库
由于db的io恒定，当一个进程开始时，我们达到了100%的dtu（我们使用的是azure p1 db），这当然会迫使我们在多个进程同时开始时变得更大（这很可能）
然而，我们理解高计算任务带来的成本，我们认为有更好的方法来实现这一点（sql大约优化了99%，还有很多事情要做）
我们正在寻找能够：
快速处理大量交易
可以处理大量数据的不断更新
支持所有主要聚合
是“合理”的价格（我知道这是一个有争议的关键字，只是轻描淡写…）
考虑过的：
ApacheSpark
我们在hdp方面没有太多的经验，所以这里的任何优点/缺点肯定是有用的（用例是否适合这个工具？？）
阿兰戈德
似乎很有希望。。看起来很快而且有我们需要的所有聚合。。
azure数据仓库
我们遇到了太多的问题，只是不适合我们。
任何gpu加速计算或一些其他高端的想法也欢迎。
我们有一个功能齐全的系统，无论走哪条路，我们都必须做出调整，因此很难尝试所有的方法，并比较哪一条最适合我们。
因此，在我们扣动扳机之前，任何先入为主的意见都是受欢迎的。

sql hadoop apache-spark Database bigdata

来源：https://stackoverflow.com/questions/48434640/rapidly-changing-large-data-processing-advise

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

快速变化的大数据处理

暂无答案！

相关问题

热门标签

最新问答