请帮助我找到一个数据挖掘研究项目的海量数据集。如果你向我推荐任何搜索引擎数据(谷歌/雅虎用户搜索历史)或维基百科的用户浏览统计数据或twitter的用户tweet数据集,那将非常有帮助。我正在开发hadoop框架和数据库,因此我希望每个表中有数百万条记录。
j5fpnvbx1#
这里是百万首歌曲的数据集。
http://labrosa.ee.columbia.edu/millionsong/
如果你想提取tweets,我建议使用twitter的流式api。https://dev.twitter.com/streaming/overview
1条答案
按热度按时间j5fpnvbx1#
这里是百万首歌曲的数据集。
如果你想提取tweets,我建议使用twitter的流式api。
https://dev.twitter.com/streaming/overview