我有一个r脚本,它可以处理一堆tweet,我想在相同的数据上使用相同的脚本,但保存在hadoop文件系统中。根据这个hortonworks教程,我可以用r代码处理hdfs中的数据,但还不太清楚。
我可以使用完全相同的r脚本,利用mapreduce范式,通过使用这个革命r吗?我应该更改代码还是有办法执行针对hadoop架构优化的相同功能?我的愿望是在像r-studio这样的标准r ide上编写代码,然后在基于mapreduce的云服务(比如microsoftazure)上使用它,或者使用它的大部分。
1条答案
按热度按时间g2ieeal71#
是的,通过使用特定于环境的计算上下文,您可以跨不同的数据平台运行任何r脚本,从hadoop到spark,再到teradata和sqlserver。
以下两个链接可以帮助您开始在hadoop上使用revolution r/microsoft r server:
https://msdn.microsoft.com/en-us/microsoft-r/scaler-hadoop-getting-started
https://github.com/azure/azure-machinelearning-datascience/blob/master/misc/microsoftr/samples/nyctaxi/nyc2013_mrs_linearbinary.rmd