我开始研究数据科学和机器学习的发展 mahout ,我发现 hadoop ,两者都让我困惑:两者之间的关系是什么 hadoop 以及 mahout ?对于数据科学和机器学习的东西,什么是最好的开始?
mahout
hadoop
im9ewurl1#
hadoop是一个基于分布式存储和分布式处理概念的处理大数据的框架。它有一个称为hadoop分布式文件系统(hdfs)的分布式存储层和一个称为mapreduce的分布式处理层。hadoop的设计使得它可以在普通硬件上运行。hadoop是用java编写的。mahout是hadoop生态系统中的一员,hadoop生态系统包含了各种机器学习算法的实现。mahout利用hadoop的并行处理能力来进行处理,这样最终用户就可以在不太复杂的情况下使用大型数据集。用户可以直接重用这些算法,也可以自定义使用,但不必担心算法的mapreduce实现的复杂性。对于数据科学和机器学习的东西,你应该了解算法的用法和细节。然后你就可以集中精力在驯兽师身上了。由于分布式模式下的mahout作业是mapreduce作业,您应该学习hadoop基础知识和mapreduce编程。
1条答案
按热度按时间im9ewurl1#
hadoop是一个基于分布式存储和分布式处理概念的处理大数据的框架。它有一个称为hadoop分布式文件系统(hdfs)的分布式存储层和一个称为mapreduce的分布式处理层。hadoop的设计使得它可以在普通硬件上运行。hadoop是用java编写的。
mahout是hadoop生态系统中的一员,hadoop生态系统包含了各种机器学习算法的实现。mahout利用hadoop的并行处理能力来进行处理,这样最终用户就可以在不太复杂的情况下使用大型数据集。用户可以直接重用这些算法,也可以自定义使用,但不必担心算法的mapreduce实现的复杂性。
对于数据科学和机器学习的东西,你应该了解算法的用法和细节。然后你就可以集中精力在驯兽师身上了。由于分布式模式下的mahout作业是mapreduce作业,您应该学习hadoop基础知识和mapreduce编程。