我是数据科学和大数据框架的新手。
比方说,我在csv中有一个数据集输入。
我从谷歌和其他资源中找到的关于数据分析师和数据科学家日常工作的信息,
一旦用户得到数据集,首先将在python库的帮助下进行操作,包括数据清理和其他工作。
然后用户使用matplotlib和其他技术可视化数据。
用户可以编写机器学习算法来获得对某些准则的预测。
以上工作流程可归纳为数据分析和预测。
另一方面,我发现pydoop(python的hadoop框架)可以进行存储、处理等操作
我有点困惑,在上面提到的数据分析工作流程中,pydoop到底站在哪里?
请引导我。
1条答案
按热度按时间6l7fqoea1#
pydoop不是一个框架。文档说它是mapreduce框架的一个接口
pydoop是hadoop的python接口,它允许您用纯python编写mapreduce应用程序
通过更多的研究,你会发现Pypark的例子比
pydoop
编写简单的mapreduce并不容易(尽管在python中比java更容易),也不适合数据科学家在任何情况下,上述工作流,用户需要获得“数据集”。它可以存储在hadoop中
pydoop
将能够处理它(通过mapreduce应用程序),但是,这不是很容易做到的pandas
,因为pandas需要本地所有数据来创建Dataframe,而不是从远程文件系统逐行传输。pydoop
与pyspark相比,它本身也不提供任何机器学习算法,因此也不适用于工作流。Pypark有一个
toPandas
函数是hadoop进程和数据科学和可视化的“独立”pandas应用程序之间的网关,但是jupyter和apache zeppelin更常用于直接进行spark可视化,而无需与pandas接口。