我正在努力熟悉hadoopmapreduce。在学习了这些概念的理论知识之后,我想对它们进行实践。但是,我找不到这种技术的小数据集(最多3 gb)。在哪里可以找到数据集来进行练习?或者,我如何练习hadoop mapreduce?换句话说,有没有提供锻炼的教程或网站?
p8ekf7hl1#
可供下载和使用的可公开访问的数据集。下面是几个例子。http://www.netflixprize.com/index-作为竞赛的一部分,它发布了一组用户评分数据,以挑战人们开发更好的推荐算法。未压缩的数据为2GB+。它包含来自480k用户对17k电影的100m+电影收视率。http://aws.amazon.com/publicdatasets/-例如,其中一个生物数据集是一个大约550gb的带注解的人类基因组数据。在经济学中你可以找到数据集,比如2000年美国人口普查(大约200GB)。http://boston.lti.cs.cmu.edu/data/clueweb09/-卡内基梅隆大学语言技术研究所发布了clueweb09数据集,以帮助大规模的网络研究。这是10种语言的10亿个网页的爬行。未压缩的数据集占用25 tb。
hyrbngr72#
或者,我如何练习hadoop mapreduce?换句话说,有没有提供锻炼的教程或网站?下面是一些玩具问题开始。并用mapreduce对数据密集型文本处理进行了验证,得到了在mapreduce中实现的页面排名、连接、索引等算法的伪代码。以下是随时间收集的一些公共数据集。你可能得挖一些小的。http://wiki.gephi.org/index.php/datasets为hadoop下载大数据http://datamob.org/datasetshttp://konect.uni-koblenz.de/http://snap.stanford.edu/data/http://archive.ics.uci.edu/ml/https://bitly.com/bundles/hmason/1http://www.inside-r.org/howto/finding-data-internethttps://docs.google.com/document/pub?id=1cnbmpiuvcu8gktmvtqstibtzco_ctlmvpxxbrs0hhcghttp://ftp3.ncdc.noaa.gov/pub/data/noaa/1990/http://data.cityofsantacruz.com/
7gcisfzg3#
为什么不自己创建一些数据集呢?一件非常简单的事情就是用数百万个随机数填充一个文件,然后使用hadoop查找重复数、三元数、素数、因子中有重复数的数等等。当然,这并不像寻找普通的facebook好友那么有趣,但只要稍微练习一下hadoop就足够了。
3条答案
按热度按时间p8ekf7hl1#
可供下载和使用的可公开访问的数据集。下面是几个例子。
http://www.netflixprize.com/index-作为竞赛的一部分,它发布了一组用户评分数据,以挑战人们开发更好的推荐算法。未压缩的数据为2GB+。它包含来自480k用户对17k电影的100m+电影收视率。
http://aws.amazon.com/publicdatasets/-例如,其中一个生物数据集是一个大约550gb的带注解的人类基因组数据。在经济学中你可以找到数据集,比如2000年美国人口普查(大约200GB)。
http://boston.lti.cs.cmu.edu/data/clueweb09/-卡内基梅隆大学语言技术研究所发布了clueweb09数据集,以帮助大规模的网络研究。这是10种语言的10亿个网页的爬行。未压缩的数据集占用25 tb。
hyrbngr72#
或者,我如何练习hadoop mapreduce?换句话说,有没有提供锻炼的教程或网站?
下面是一些玩具问题开始。并用mapreduce对数据密集型文本处理进行了验证,得到了在mapreduce中实现的页面排名、连接、索引等算法的伪代码。
以下是随时间收集的一些公共数据集。你可能得挖一些小的。
http://wiki.gephi.org/index.php/datasets
为hadoop下载大数据
http://datamob.org/datasets
http://konect.uni-koblenz.de/
http://snap.stanford.edu/data/
http://archive.ics.uci.edu/ml/
https://bitly.com/bundles/hmason/1
http://www.inside-r.org/howto/finding-data-internet
https://docs.google.com/document/pub?id=1cnbmpiuvcu8gktmvtqstibtzco_ctlmvpxxbrs0hhcg
http://ftp3.ncdc.noaa.gov/pub/data/noaa/1990/
http://data.cityofsantacruz.com/
7gcisfzg3#
为什么不自己创建一些数据集呢?
一件非常简单的事情就是用数百万个随机数填充一个文件,然后使用hadoop查找重复数、三元数、素数、因子中有重复数的数等等。
当然,这并不像寻找普通的facebook好友那么有趣,但只要稍微练习一下hadoop就足够了。