gcp hadoop数据仓库?

c2e8gylq  于 2021-06-01  发布在  Hadoop
关注(0)|答案(2)|浏览(543)

我知道googlebigquery是一个数据仓库,但是dataproc,big table,pub/sub是否被认为是一个数据仓库?这会使hadoop成为一个数据仓库吗?

bpzcxfmw

bpzcxfmw1#

“数据仓库”主要是一个信息系统概念,它描述了一个集中的、可信的(如公司/业务)数据源。
来自wikipedia:“dws是来自一个或多个不同来源的集成数据的中央存储库。它们将当前和历史数据存储在一个地方,用于为整个企业的员工创建分析报告。”
关于你的问题,一个简单的答案是:
googlebigquery是一个查询执行(和/或数据处理)引擎,您可以在不同类型的数据存储上使用它。
googlebigtable是一种数据库服务,可用于实现数据仓库或任何其他数据存储。
googledataproc是一个数据处理服务,由mapreduce(或者spark,如果你认为它是hadoop的一部分)等常用hadoop处理组件组成。
hadoop是一个用于数据存储和处理的框架/平台,由不同的组件组成(例如,通过hdfs进行数据存储,通过mapreduce进行数据处理)。您可以使用hadoop平台来构建数据仓库,例如使用mapreduce来处理数据并将其加载到orc文件中,这些文件将存储在hdfs中,并且可以由hive查询。但只有当它是“数据真相的集中、单一版本”时,才应该称之为数据仓库

6uxekuva

6uxekuva2#

dataproc可以作为hadoop集群的一个数据湖,但也可以作为一个数据仓库,因为一些工具可以查询它的信息。
bigtable存储多达PB的数据,但是,它是为需要非常高的吞吐量和可伸缩性的应用程序而设计的。然而,由于其高存储容量和流处理/分析,它也可以被视为一个数据仓库。
pub/sub它不是一个数据仓库,因为它是一个发布-订阅服务。

相关问题