假设你有一个历史数据,每天有几百万行数据被添加到其中。需要每天处理整个数据并更新变量。您将如何利用大数据平台解决这个问题?如果需要,我们很乐意提供更多细节。
n3ipq98p1#
尽量不要重新处理整个10b行。。。我不知道你在这么大的一个数据集中到底在寻找什么,但是很可能有一个统计模型,在这个模型中你可以保存摘要信息,然后根据这个数据重新处理增量信息。不过,cricket是对的,hdfs和spark很可能是您首选的工具。
1条答案
按热度按时间n3ipq98p1#
尽量不要重新处理整个10b行。。。我不知道你在这么大的一个数据集中到底在寻找什么,但是很可能有一个统计模型,在这个模型中你可以保存摘要信息,然后根据这个数据重新处理增量信息。
不过,cricket是对的,hdfs和spark很可能是您首选的工具。