hadoop vs数据湖

jgwigjjp 于 2021-06-02 发布在 Hadoop

关注(0)|答案(6)|浏览(684)

我听说了一个新名词“数据湖”。我在谷歌上搜索到了
数据湖是一个大型的存储库和处理引擎。数据湖为“任何类型的数据提供了海量存储、巨大的处理能力以及处理几乎无限并发任务或作业的能力”
术语datalake通常与面向hadoop的对象存储相关联。在这种情况下，一个组织的数据首先被加载到hadoop平台，然后业务分析和数据挖掘工具被应用到hadoop的商品计算机集群节点上的数据。
hadoop也做了同样的事情。我们有用于存储的hdfs和用于计算的mapreduce。我对hadoop和datalake有点困惑。两者的区别是什么。如果它们是相同的，这就是为什么这个术语出现。或者如何定义数据湖。

hadoop data-warehouse data-lake

来源：https://stackoverflow.com/questions/35987508/hadoop-vs-data-lake

6条答案

按热度按时间

mu0hgdu01#

数据湖是一种在系统中存储数据的方法，它有助于对各种模式和结构形式（通常是对象blob或文件）中的数据进行排序。
数据湖的概念与apachehadoop及其开源项目生态系统紧密相连。所有关于数据湖的讨论都很快引出了如何使用apachehadoop生态系统构建数据湖的描述。它之所以流行，是因为它提供了一种经济高效、技术可行的方式来应对大数据挑战。组织正在发现数据湖，将其作为现有数据体系结构的一种演变。
下面的白皮书将作为使用hadoop构建数据湖的一个示例。

赞(0）回复(0）举报 2021-06-02

zvokhttg2#

我´我觉得这个问题太像了。

“oracle与数据库”。

数据湖是一种在系统或存储库中存储数据的方法。hadoop引用了hadoop技术，hadoop是一个用于存储数据的开源软件框架。因此数据湖的一个例子是hadoop中使用的分布式文件系统。

赞(0）回复(0）举报 2021-06-02

oiopk7p53#

数据湖是一个抽象的“概念”。hadoop是一种特定的技术/软件。可以使用hadoop或其他工具实现数据湖。

赞(0）回复(0）举报 2021-06-02

eanckbw94#

您已经将这个概念（数据湖）与一个可以用来实现它们的框架（hadoop）混淆了，但是这是可以理解的，因为这些术语彼此之间有着密切的联系。
hadoop通常与数据湖相关联，因为第一批数据湖中的一些是使用本地hadoop构建的。然而，数据湖只是一种架构设计模式——数据湖可以在hadoop之外使用任何类型的可伸缩对象存储（例如azure数据湖或aws s3）构建。
这个站点很好地概述了数据湖，包括讨论hadoop和其他实现的数据湖的历史。下面是另一篇文章，讨论了这些术语是如何联系在一起的。

赞(0）回复(0）举报 2021-06-02

stszievb5#

想到数据湖最简单的方法就是把这个大容器想象成一个真正的湖，里面有河流，你永远不知道河流从哪里来（或者河流的“类型”）。
datalake能够存储大量不同类型的数据（结构化数据、非结构化数据、日志文件、实时数据、图像等），并将这些数据混合在一起，将许多不同的数据类型关联起来。这里的关键是，我们正在从传统方式转向现代工具（如hadoop、cassandra、nosqldb等）。
有一大堆数据正在被创建，如果我们能够分析它，我们可能会从中获得一些价值。我们可以使用云来获取这些数据，将它们聚集在一个商店中，并对其进行分析。在azure中，我们有azure数据湖存储。我们可以获取所有这些数据，然后将其存储在azure数据湖存储中。azuredatalakestore就像一个基于云的文件服务或文件系统，其大小几乎是无限的。
我们可以在商店里的数据上运行服务。因此，您可以在hdinsight集群中使用hadoop或spark，也可以使用azure数据湖分析服务，它是对azure数据湖存储的补充。该服务将允许您运行作业，有效地查询存储在azuredatalake存储区中的数据并生成输出结果。
azure数据湖存储是我们可以存储所有我们想要分析的数据的地方。azuredatalakeanalytics是一种服务，我们可以在其中运行查询数据的作业，以生成某种分析输出。hadoop是一种特定的技术/（开源分布式数据处理集群技术）。可以使用hadoop或其他工具实现数据湖。

赞(0）回复(0）举报 2021-06-02

ewm0tg9j6#

为了处理一个数据湖，除了我们的卷，我们可以使用任何支持不同类型数据的技术。在这个上下文中，apachehadoop有这个特性，所以我们可以使用hadoop来实现数据湖。但是hadoop绝不意味着一个数据湖，因为数据湖是一个包含大量实现的大概念。在开发术语中，我们说“DataLake是一个包含许多实现的规范，如hadoop、MicrosoftAzure、aws等”

赞(0）回复(0）举报 2021-06-02

我来回答

hadoop vs数据湖

6条答案

“oracle与数据库”。

相关问题

热门标签

最新问答