用于hadoop mapreduce的小型数据集

mzsu5hc0 于 2021-06-03 发布在 Hadoop

关注(0)|答案(3)|浏览(418)

我正在努力熟悉hadoopmapreduce。在学习了这些概念的理论知识之后，我想对它们进行实践。
但是，我找不到这种技术的小数据集（最多3 gb）。在哪里可以找到数据集来进行练习？
或者，我如何练习hadoop mapreduce？换句话说，有没有提供锻炼的教程或网站？

Java hadoop mapreduce Dataset

来源：https://stackoverflow.com/questions/12915128/small-data-sets-for-hadoop-mapreduce

3条答案

按热度按时间

p8ekf7hl1#

可供下载和使用的可公开访问的数据集。下面是几个例子。
http://www.netflixprize.com/index-作为竞赛的一部分，它发布了一组用户评分数据，以挑战人们开发更好的推荐算法。未压缩的数据为2GB+。它包含来自480k用户对17k电影的100m+电影收视率。
http://aws.amazon.com/publicdatasets/-例如，其中一个生物数据集是一个大约550gb的带注解的人类基因组数据。在经济学中你可以找到数据集，比如2000年美国人口普查（大约200GB）。
http://boston.lti.cs.cmu.edu/data/clueweb09/-卡内基梅隆大学语言技术研究所发布了clueweb09数据集，以帮助大规模的网络研究。这是10种语言的10亿个网页的爬行。未压缩的数据集占用25 tb。

赞(0）回复(0）举报 2021-06-03

hyrbngr72#

或者，我如何练习hadoop mapreduce？换句话说，有没有提供锻炼的教程或网站？
下面是一些玩具问题开始。并用mapreduce对数据密集型文本处理进行了验证，得到了在mapreduce中实现的页面排名、连接、索引等算法的伪代码。
以下是随时间收集的一些公共数据集。你可能得挖一些小的。
http://wiki.gephi.org/index.php/datasets
为hadoop下载大数据
http://datamob.org/datasets
http://konect.uni-koblenz.de/
http://snap.stanford.edu/data/
http://archive.ics.uci.edu/ml/
https://bitly.com/bundles/hmason/1
http://www.inside-r.org/howto/finding-data-internet
https://docs.google.com/document/pub?id=1cnbmpiuvcu8gktmvtqstibtzco_ctlmvpxxbrs0hhcg
http://ftp3.ncdc.noaa.gov/pub/data/noaa/1990/
http://data.cityofsantacruz.com/