假设我想使用hadoop来扩展集群上的应用程序,并处理大量数据。假设我有大量的时间序列可以存储在hbase上(可以用更好的想法来详细说明这一点)(可能用一列作为frame,即使这样,如果有更好的想法出现,我们也可以更改)。现在算法必须在这些时间序列(实际上是一组时间序列)上运行和缩放,但问题是为了工作,算法需要一个时间序列+另一个时间序列的可变反弹。这就阻止了hadoop的“数据局部性”特性。可以接受吗?有没有更好的办法?也许可以创建一个自定义应用程序而不是map reduce?
假设我想使用hadoop来扩展集群上的应用程序,并处理大量数据。假设我有大量的时间序列可以存储在hbase上(可以用更好的想法来详细说明这一点)(可能用一列作为frame,即使这样,如果有更好的想法出现,我们也可以更改)。现在算法必须在这些时间序列(实际上是一组时间序列)上运行和缩放,但问题是为了工作,算法需要一个时间序列+另一个时间序列的可变反弹。这就阻止了hadoop的“数据局部性”特性。可以接受吗?有没有更好的办法?也许可以创建一个自定义应用程序而不是map reduce?
暂无答案!
目前还没有任何答案,快来回答吧!