hadoop—从头开始构建数据湖

zbsbpyhn 于 2021-05-27 发布在 Hadoop

关注(0)|答案(2)|浏览(542)

我试图从头开始建立一个“数据湖”。我了解数据湖的工作原理和用途；网上到处都是。但当问题出现时，如何从头开始建立一个没有来源。我想知道：
数据仓库+hadoop=数据湖
我知道如何运行hadoop并将数据引入hadoop。我想构建一个示例内部数据湖来演示我的管理器。感谢您的帮助。

hadoop data-warehouse data-lake

来源：https://stackoverflow.com/questions/54897265/building-data-lake-from-scratch

2条答案

按热度按时间

shstlldc1#

您必须拥有结构化和非结构化数据，才能将hadoop集群变成一个数据湖。
因此，您必须有一些etl管道来获取非结构化数据并将其转换为结构化数据。产品评论或类似的东西将提供您的非结构化数据。将其转换为hive可用的内容（例如）将为您提供结构化数据。
我会看着https://opendata.stackexchange.com/ 获取您的数据和谷歌hadoop etl的想法如何清理数据。如何编写管道（spark或mapreduce）取决于您自己。

赞(0）回复(0）举报 2021-05-27

1l5u6lss2#

您可以使用aws服务构建datalake。一个简单的方法是使用aws cloudformation模板来配置解决方案，包括aws服务，如amazon s3用于无限数据存储，amazon Cognoto用于身份验证，amazon elasticsearch用于强大搜索功能，aws lambda用于微服务，aws glue用于数据传输，亚马逊雅典娜的数据分析。下图显示了使用aws服务在aws上构建数据湖的完整体系结构。
参考本文：https://medium.com/@pmahmoudzadeh/building-a-data-lake-on-aws-3f02f66a079e

赞(0）回复(0）举报 2021-05-27

我来回答

hadoop—从头开始构建数据湖

2条答案

相关问题

热门标签

最新问答