关闭。这个问题需要更加突出重点。它目前不接受答案。
**想改进这个问题吗?**通过编辑这篇文章更新这个问题,使它只关注一个问题。
5年前关门了。
改进这个问题
我用r/python在1-2%的样本数据上拟合了一个机器学习分类器,我对准确度度量(精度、召回率和fèu分数)非常满意。
现在我想用这个用r编码的分类器来为一个拥有7000万行/示例的大型数据库评分,这个数据库驻留在hadoop/hive环境中。
有关数据集的信息:
7000万x 40个变量(列):大约18个变量是分类变量,其余22个是数字变量(包括整数)
我该怎么做呢?有什么建议吗?
我想做的事情是:
a) 将hadoop系统中的数据以1 m的增量分块输出到csv文件中,并将其馈送到r
b) 某种批量处理。
它不是一个实时系统,所以不需要每天都发生,但我仍然想评分约2-3小时。
3条答案
按热度按时间7bsow1i61#
如果您可以在所有datanode上安装r运行时,那么您就可以创建一个简单的hadoop流式Map作业来调用r代码
你也可以看看斯巴克
prdp8dxp2#
我推断您希望在完整的数据集而不是示例数据集上运行r代码(分类器)
因此,我们正在寻找在大规模分布式系统上执行r代码
而且,它必须与hadoop组件紧密集成。
所以rhadoop会适合你的问题陈述。
http://www.rdatamining.com/big-data/r-hadoop-setup-guide
xpcnnkqh3#