为hadoop下载大数据

9cbw7uwe 于 2021-06-03 发布在 Hadoop

关注(0)|答案(7)|浏览(509)

**结束。**此问题不符合堆栈溢出准则。它目前不接受答案。
**想改进这个问题吗？**更新问题，使其成为堆栈溢出的主题。

5年前关门了。
改进这个问题
我需要一个大数据（超过10gb）来运行hadoop演示。有人知道我在哪里可以下载吗。请告诉我。

hadoop download

来源：https://stackoverflow.com/questions/15120520/big-dataset-for-hadoop-join

7条答案

按热度按时间

8zzbczxx1#

如果你对国家指标感兴趣，我找到的最好的来源是worldbank.org。他们提供的数据可以导出为csv，这使得在hadoop中使用非常容易。如果你用的是.net，我写了一篇博文http://ryanlovessoftware.blogspot.ro/2014/02/creating-hadoop-framework-for-analysing.html 在这里您可以看到数据的外观，如果您从gidhub下载代码https://github.com/ryan-popa/hadoop-analysis，您已经有了字符串解析方法。

赞(0）回复(0）举报 2021-06-03

qv7cva1a2#

生成数据可能比下载并放置数据要快。这样做的好处是可以让您控制问题域，并让您的演示对正在观看的人有意义。

赞(0）回复(0）举报 2021-06-03

b0zn9rqh3#

您可能会感兴趣的一篇文章，“使用hadoop来分析使用wikihadoop的完整wikipedia转储文件”。
如果你是在维基百科页面浏览统计，那么这可能会有所帮助。您可以下载从2007年到当前日期的pagecount文件。为了了解文件的大小，一天1.9GB（这里我选择了2012-05-01）分布在24个文件中。
目前，有31个国家的网站提供各种格式的公共数据，http://www.data.gov/opendatasites. 此外，世界银行在http://data.worldbank.org/data-catalog

赞(0）回复(0）举报 2021-06-03

cpjpxq1n4#

amazon上有可用的公共数据集：
http://aws.amazon.com/publicdatasets/
我建议考虑在那里运行demo cluster，这样可以节省下载。
还有来自commoncrawl的crowled web的良好数据集，也可以在amazons3上获得。http://commoncrawl.org/

赞(0）回复(0）举报 2021-06-03

zbwhf8kr5#

那么“2012年互联网普查”呢？通过对整个互联网进行分布式扫描收集的数据：
公告：http://seclists.org/fulldisclosure/2013/mar/166
数据：http://internetcensus2012.bitbucket.org/
整个数据是7tb，（显然）只能通过torrent获得。

赞(0）回复(0）举报 2021-06-03

jslywgbw6#

我建议您从以下网站下载百万首歌曲：
http://labrosa.ee.columbia.edu/millionsong/
使用百万首歌曲数据集最好的地方是，您可以将1gb（约10000首歌曲）、10gb、50gb或约300gb的数据集下载到hadoop集群，然后执行任何您想要的测试。我喜欢使用它，并通过使用这个数据集学到了很多东西。
首先，您可以从a-z的任意一个字母开始下载数据集，其范围从1gb到20gb。。您也可以使用infochimp网站：
http://www.infochimps.com/collections/million-songs
在我下面的一个博客中，我展示了如何下载1gb数据集并运行pig脚本：
http://blogs.msdn.com/b/avkashchauhan/archive/2012/04/12/processing-million-songs-dataset-with-pig-scripts-on-apache-hadoop-on-windows-azure.aspx

赞(0）回复(0）举报 2021-06-03

piztneat7#

TomWhite在他的书（hadoop:权威指南）中提到了一个示例天气数据集。 http://hadoopbook.com/code.html 已有100多年的数据。
我曾经 wget 在linux中拉取数据。对于2007年本身，数据大小是27gb。
它作为一个 FTP 链接。因此，您可以下载任何ftp实用程序。
ftp://ftp.ncdc.noaa.gov/pub/data/noaa/
有关完整的详细信息，请查看我的博客：
http://myjourneythroughhadoop.blogspot.in/2013/07/how-to-download-weather-data-for-your.html

赞(0）回复(0）举报 2021-06-03

我来回答

为hadoop下载大数据

7条答案

相关问题

热门标签

最新问答