hadoop—从头开始构建数据湖

zbsbpyhn  于 2021-05-27  发布在  Hadoop
关注(0)|答案(2)|浏览(542)

我试图从头开始建立一个“数据湖”。我了解数据湖的工作原理和用途;网上到处都是。但当问题出现时,如何从头开始建立一个没有来源。我想知道:
数据仓库+hadoop=数据湖
我知道如何运行hadoop并将数据引入hadoop。我想构建一个示例内部数据湖来演示我的管理器。感谢您的帮助。

shstlldc

shstlldc1#

您必须拥有结构化和非结构化数据,才能将hadoop集群变成一个数据湖。
因此,您必须有一些etl管道来获取非结构化数据并将其转换为结构化数据。产品评论或类似的东西将提供您的非结构化数据。将其转换为hive可用的内容(例如)将为您提供结构化数据。
我会看着https://opendata.stackexchange.com/ 获取您的数据和谷歌hadoop etl的想法如何清理数据。如何编写管道(spark或mapreduce)取决于您自己。

1l5u6lss

1l5u6lss2#

您可以使用aws服务构建datalake。一个简单的方法是使用aws cloudformation模板来配置解决方案,包括aws服务,如amazon s3用于无限数据存储,amazon Cognoto用于身份验证,amazon elasticsearch用于强大搜索功能,aws lambda用于微服务,aws glue用于数据传输,亚马逊雅典娜的数据分析。下图显示了使用aws服务在aws上构建数据湖的完整体系结构。
参考本文:https://medium.com/@pmahmoudzadeh/building-a-data-lake-on-aws-3f02f66a079e

相关问题