我编写了一个非常简单的分布式计算平台(基于map/reduce范式),我正在编写一些演示和展示。我有一个非常小的团队,必须优先考虑哪些演示我会写第一。
为了区分优先级,我需要对演示进行相应的排序,大约70%是分布式计算的相关、常见、重要的用例,30%是易于编写的。
到目前为止,我的订单是这样的:
用montecarlo方法求pi数
蒙特卡罗数值积分
大矩阵乘法(稠密矩阵)
线性回归
大矩阵反演
多元回归
排序
聚类(k-均值)
聚类(层次)
排名第一的是因为它花了10分钟来写,虽然它完全没有用(我不确定,但我认为没有很多人试图找到更多的数字来pi)。
由于我的平台的性质,它将在当然令人尴尬的平行的事情上更加闪耀,而不是io有界或减少主导。
你怎么改变我的名单?你想补充什么?排序在企业界有用吗?还是只对分布式计算平台进行基准测试?
2条答案
按热度按时间vaj7vani1#
您的列表表明您没有区分并行计算和分布式计算。这不一定是错的,但是如果有人想要展示分布式计算平台的卓越性,那么当看到并行计算(比如第2-5项)正在执行时,他们可能会被热情地抛在一边。
分类在任何有数据的地方都是有用的:大企业,小企业,在你的抽屉里,在googlesphere上。搜索也是如此,这在你的列表中是一个令人惊讶的遗漏。另一个立即打动我的遗漏是任何类型的数据融合,合并大型数据集,从它们的交叉点获取信息,而不是从数据集中单独提取的信息。
8ulbf1ek2#
我的第二个标记是,您正在混合分布式计算和hpc。以下是您对每个主题的一些评论:
(1) 有人试图计算尽可能多的圆周率数字,但蒙特卡罗算法是完全没有用的,因为它的精度与试验次数的平方根反比,因此,为了得到一个小数位数的精度,你大概需要100倍以上的试验。还有其他算法-看看是否可以使用map/reduce实现其中的一些算法。
(2) 这一个很好,虽然很少使用-精度与(1)相同的问题。
(5) 纯矩阵反演很少进行,主要是由于数值不稳定性。不如解一个稠密的线性方程组吧?
我想说的是,您缺少了当前m/r处理的一个主要用法,即图形处理(阅读:社会和其他网络/流分析)。此外,一些更一般的优化问题可能是好的,例如遗传算法。