大数据去哪里,如何存储?

amrnrhlw  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(965)

我正在努力掌握大数据,主要是如何管理大数据。
熟悉传统的数据管理形式和数据生命周期;例如。:
收集的结构化数据(例如web表单)
存储在数据库服务器上rdbms表中的数据
清理数据,然后将其etl到数据仓库中
使用olap多维数据集和各种其他bi工具/技术分析数据
然而,就大数据而言,我对第2点和第3点的等效版本感到困惑,主要是因为我不确定是否每个大数据“解决方案”都涉及使用nosql数据库来处理和存储非结构化数据,以及数据仓库的等效大数据是什么。
据我所见,在某些情况下,nosql并不总是被使用,而且可以完全省略-这是真的吗?
对我来说,大数据的生命周期是这样的:
收集的数据(结构化/非结构化/半结构化)
存储在大数据平台nosql数据库中的数据;e、 g.服务器的mapr hadoop分发上的hbase。
大数据分析/数据挖掘工具清理和分析数据
但我有一种感觉,情况并非总是这样,第3点可能完全错误。有人能解释一下吗?

fnvucqvd

fnvucqvd1#

当我们谈论大数据时,我们在大多数情况下谈论的是大量的数据,而这些数据在很多情况下是不断被写入的。数据也可以有很多种。把大数据的典型数据源想象成生产线上的一台机器,它能产生所有关于温度、湿度等的传感器数据,而不是你在dwh中能找到的典型数据。
如果将所有这些数据转换成关系数据库,会发生什么?如果您经常使用etl,您就知道从源代码中提取数据、将数据转换为模式并存储它需要时间,这是一个瓶颈。创建架构太慢。此外,这种解决方案的成本也很高,因为您需要昂贵的设备来运行dwh。你不想用传感器数据填充它。
你需要在便宜的硬件上快速写入。对于大数据,您首先在分布式文件系统中存储无模式数据(通常称为非结构化数据)。这个文件系统将大量数据分割成块(通常大约128MB),并将它们分布在集群节点中。当数据块被复制时,节点也会下降。
如果您来自传统的dwh世界,那么您已经习惯了能够很好地处理准备好的和结构化的数据的技术。hadoop和co很适合寻找像在干草堆中寻找针这样的见解。通过并行数据处理和处理大量数据,您可以获得产生见解的能力。
假设您收集了数TB的数据,并希望对其进行分析(例如,集群)。如果你必须在一台机器上运行它,那就需要几个小时。大数据系统的关键是在无共享架构中并行执行。如果您想提高性能,可以添加硬件来横向扩展。这样你就可以用大量的数据来加速你的搜索。
看看现代的大数据栈,你有数据存储。这可以是带有分布式文件系统(如hdfs)或类似文件系统的hadoop。然后在上面有一个管理文件系统访问的资源管理器。此外,还有一个数据处理引擎,比如apachespark,它在存储层上协调执行。
同样在数据处理的核心引擎上,您有一些应用程序和框架,比如机器学习API,它们允许您在数据中发现模式。您可以运行无监督学习算法来检测结构(如聚类算法),也可以运行有监督机器学习算法来为数据中的模式赋予某种意义并能够预测结果(如线性回归或随机森林)。
这是我的大数据在一个简单的人谁是经验丰富的传统数据库系统。

相关问题