在hadoop和mapreduce上运行r脚本

vu8f3i0k  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(300)

我有一个r脚本,它可以处理一堆tweet,我想在相同的数据上使用相同的脚本,但保存在hadoop文件系统中。根据这个hortonworks教程,我可以用r代码处理hdfs中的数据,但还不太清楚。
我可以使用完全相同的r脚本,利用mapreduce范式,通过使用这个革命r吗?我应该更改代码还是有办法执行针对hadoop架构优化的相同功能?我的愿望是在像r-studio这样的标准r ide上编写代码,然后在基于mapreduce的云服务(比如microsoftazure)上使用它,或者使用它的大部分。

g2ieeal7

g2ieeal71#

是的,通过使用特定于环境的计算上下文,您可以跨不同的数据平台运行任何r脚本,从hadoop到spark,再到teradata和sqlserver。
以下两个链接可以帮助您开始在hadoop上使用revolution r/microsoft r server:
https://msdn.microsoft.com/en-us/microsoft-r/scaler-hadoop-getting-started
https://github.com/azure/azure-machinelearning-datascience/blob/master/misc/microsoftr/samples/nyctaxi/nyc2013_mrs_linearbinary.rmd

相关问题