每天处理10b行数据以创建变量(计算列)的最佳方法是什么?

e5nszbig  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(280)

假设你有一个历史数据,每天有几百万行数据被添加到其中。需要每天处理整个数据并更新变量。您将如何利用大数据平台解决这个问题?
如果需要,我们很乐意提供更多细节。

n3ipq98p

n3ipq98p1#

尽量不要重新处理整个10b行。。。我不知道你在这么大的一个数据集中到底在寻找什么,但是很可能有一个统计模型,在这个模型中你可以保存摘要信息,然后根据这个数据重新处理增量信息。
不过,cricket是对的,hdfs和spark很可能是您首选的工具。

相关问题