我有一门学术课程“中间件”,它涵盖了分布式软件系统的不同方面,包括对如下主题的介绍[tag:distributed file 系统]。本文还介绍了hbase、hadoop、mapreduce、hiveql和piglatin。我想知道,我可以有一个小项目,试图整合上述技术。对于初学者来说,我知道cloudera提供的vm是为了体验hadoop和使用eclipse。我在考虑如何实现一个应用程序,它接受事件流作为输入,对此进行分析并给出输出。
我的机器上既有windows/linux,又有i7处理器和4gb内存。
请让我知道如何开始与一切和任何简单的例子应用程序的建议是欢迎的。
1条答案
按热度按时间nfg76nw01#
下面是一篇关于使用hive/hdfs分析tweet的博客文章。下面是一篇关于使用pig和hive执行clickstream分析的博客文章。
在这里查看一些大数据用例,并尝试解决一个有趣的问题。