bigdatahadoop/hbase/bigtable项目理念

l5tcr1uw  于 2021-06-02  发布在  Hadoop
关注(0)|答案(3)|浏览(311)

关闭。这个问题是基于意见的。它目前不接受答案。
**想改进这个问题吗?**更新这个问题,这样就可以通过编辑这篇文章用事实和引文来回答。

四年前关门了。
改进这个问题
我刚开始学习bigdatahadoop技术。为了将我学到的知识应用到实际中,有人能为我推荐一个大数据hadoop/hbase或bigtable相关的研究生课程项目吗。因此,我将实施该项目,并将了解这些技术也。我不寻找大项目,至少2个星期的好项目,我会学到一些东西。
请帮助我和分享你的想法,任何帮助将不胜感激。
谢谢

voj3qocg

voj3qocg1#

应用mapreduce作业对数据进行数据分析。hbase支持两种类型的读取访问:按行键的表扫描和mapreduce作业。表扫描使您能够检索正在查找的行的确切子集,而mapreduce作业使您能够跨更大的数据集执行分析。

3df52oht

3df52oht2#

你可以找到网站日志文件,通常这些文件是巨大的可能是gbs。然后开发如下算法
每个网站用户从登录到注销的平均时间
哪个网站的平均并发会话数最高
发现排名前五的网站随着时间的推移并发打开的会话数最高
找到一个网站日志文件或创建自己喜欢的

Date          Time         Event          Website         User
---------------------------------------------------------------
1/1/2000      1:20 pm      Login          abc.com         user1
1/1/2000      1:21 pm      Login          abc.com         user2
1/1/2000      1:25 pm      Logout         abc.com         user1
1/1/2000      1:28 pm      Login          xyz.com         user3

您可以设置一些环境,在其中实时创建、处理这些日志事件,然后开发一些以可视化形式显示实时数据的 Jmeter 板
沙赫扎德

nhn9ugyo

nhn9ugyo3#

在时间序列收集和分析中会发生很多有趣的事情。我建议实现一个时间序列数据库。对于最初的想法,你可以看看以下的指导方针https://cloud.google.com/bigtable/pdf/cloudbigtabletimeseries.pdf.
找到具有时间序列的有意义的数据集。最好是实时,或至少每分钟更新,每天数百万个样本。远离股票市场和金融市场-这些都是无聊/研究过度的主题。如果有必要,构建一个收集工具(我说过crawler:)来按计划获取非结构化数据并将其转换为时间序列。
将数据插入到您选择的键值数据存储中。尝试模式、压缩和吞吐量。
将您自己的实现与开源时间序列数据库进行比较和基准测试。
分析并向so社区展示您的发现。
祝你好运!

相关问题