python 掌握可视化/分析大型数据集的基本技能[已结束]

lnlaulya  于 2023-02-07  发布在  Python
关注(0)|答案(4)|浏览(119)

就目前的情况而言,此问题不适合我们的问答格式。我们希望答案能得到事实、参考资料或专业知识的支持,但此问题可能会引发辩论、争论、民意调查或广泛讨论。如果您认为此问题可以改进并可能重新讨论,请访问visit the help center以获取指导。
10年前关闭了。
我正在寻找一种方法来学会适应大型数据集。我是一名大学生,所以我做的每件事都是"不错"的大小和复杂度。这学期我和一位教授一起做一个研究项目,我不得不可视化一个有点大(以我的经验)的数据集之间的关系。这是一个15 MB的CSV文件。
我用Python编写了大部分的数据处理,用GNUPlot可视化。
有没有关于这个主题的可访问的书籍或网站?使用Python的奖励积分,比依赖gnuplot更"基本"的可视化系统的奖励积分更多。我想是开罗或其他地方。
寻找能让我从数据挖掘到处理再到可视化的东西。
编辑:我更想找一些能教我"大创意"的东西。我可以自己写代码,但要找人们用来处理大数据集的技术。我的意思是,我的15MB足够小,我可以把我需要的一切都放进内存,然后开始处理。人们怎么做才能可视化5GB的数据集?

xvw2m8pv

xvw2m8pv1#

我认为最基本的技能是良好的数学和统计学基础。这可以帮助你评估和选择各种数据过滤技术,减少数据的数量和维度,同时保持数据的完整性。你最不想做的事情就是做一些漂亮的东西,显示出实际上并不存在的模式或关系。

专业数学

为了解决某些类型的问题,你需要学习一些数学知识来理解特定的算法是如何工作的,以及它们会对你的数据产生什么影响。有各种各样的算法可以用于聚类数据、降维、自然语言处理等。根据你想要分析的数据类型,你可能永远不会使用其中的许多算法。但是如果您需要帮助,Internet(和Stack Exchange站点)上有丰富的资源。
对于数据挖掘技术的介绍性概述,维滕的Data Mining很好,我有第1版,它用简单的语言解释了一些概念,并加入了一些数学知识。我推荐它,因为它提供了一个很好的概述,而且价格也不太贵--随着你对这个领域的了解越来越多,你会注意到许多书都很贵。唯一的缺点是有很多页面专门介绍如何使用WEKA,这是一个Java数据挖掘包,当您使用Python时可能不会有太大帮助(但它是开源的,所以您可能能够从源代码中收集一些想法。我还发现X1 E1 F1 X提供了很好的概述,价格也很合理,再多学点数学。

工具

要在一台机器上创建自己发明的可视化效果,我认为应该从以下基础知识开始:Python、NumpyScipyMatplotlib,以及一个你有经验的好的图形库,比如PILPycairo,有了这些,你可以处理数字,把它们画在图上,还可以通过自定义绘图例程把东西美化一下。
当你想要创建移动的、交互式的可视化效果时,像基于Java的Processing库这样的工具可以让你很容易地做到这一点。如果你不想写Java的话,甚至可以通过Jython编写Processing sketch in Python
如果您需要的话,还有很多其他工具,如OpenCV (computer vision, machine learning)Orange (data mining, analysis, viz)NLTK (natural language, text analysis)

演示原则和技巧

Edward Tufte这样的业内人士的书籍和像Information Graphics这样的参考资料可以帮助你很好地概述创建可视化和有效地呈现它们的方法。

查找Viz示例的资源

Flowing DataInfostheticsVisual ComplexityInformation is Beautiful这样的网站展示了最近的、有趣的可视化效果。你也可以在互联网上浏览many compiled listsvisualization sites。以这些网站为种子,开始浏览,我相信你会找到很多有用的网站和鼓舞人心的例子。
(This本来是要做评论的,但是长得太长了)

b4wnujal

b4wnujal2#

查看信息是美丽的。它不是一本技术书籍,但它可能会给你一些可视化数据的想法。
也许可以看看Principles of Data Mining的前3章,它介绍了一些在数据挖掘背景下可视化数据的概念,我在大学期间发现其中的一些部分很有用。
希望这能帮上忙

lsmd5eda

lsmd5eda3#

如果您正在寻找可视化而不是数据挖掘和分析,爱德华·塔夫特的《定量信息的可视化显示》被认为是该领域最好的书籍之一。

nbnkbykc

nbnkbykc4#

我很喜欢Janert的《使用开源工具进行数据分析》(Data Analysis with Open Source Tools)一书。这本书对数据分析方法进行了相当广泛的调查,重点是如何理解产生数据的系统,而不是复杂的统计方法。虽然使用的数学不是特别先进,但我认为你需要熟悉数学论证才能从书中获益。

相关问题