阿里云DataWorks介绍

x33g5p2x  于2022-02-07 转载在 其他  
字(1.9k)|赞(0)|评价(0)|浏览(684)

🍓前几篇博客中,我们讲到阿里云的MaxComputer,今天我们继续学习阿里云的DataWorks,对DataWorks的学习计划是写2章。对外往期内容感兴趣的小伙伴可以参考下面的内容👇:

🍑本文是DataWorks系列的第一章,关于DataWorks的简介部分,主要介绍大数据开发与治理平台DataWorks的功能概念。

关于DataWorks的实战部分,也在同一天完成了,一起发出来:

1. DataWorks简介

DataWorks(数据工场)是阿里云重要的PaaS平台产品,它提供全面托管的工作流服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。主要包括下面几个部分:

  • 全面任务托管:具有强大的调度能力,提供完全的托管服务。
  • 多种任务类型:数据同步、OPDS SQL 、MR、SHELL、机器学习。
  • 可视化开发:提供可视化的代开发、工作流设计界面。
  • 监控报警:可视化的任务监控,任务监控短信报警。

1.1 DataWorks在大数据架构中的位置

如图:DataWorks集成了数据开发、任务调度、数据管理的功能。

1.2 DataWorks功能架构

如图:DataWorks将大数据处理的一套流程都集成起来,方便开发业务的流畅运行。

1.3 DataWorks的核心功能

  1. 数据集成:主要用于离线/实时数据同步。提供复杂网络下、丰富的异构数据源之间高速稳定的数据移动及同步能力。
  2. 数据开发:对MaxComputer中的数据进行加工、分析与挖掘等处理,发现其价值。
  3. 数据应用:MaxComputer 中的数据进行加工处理后,应用各种场景,如数据提取、数据交换、数据报表、数据分析。
  4. 数据服务:提供为企业搭建统一的数据服务总线,帮助企业统一管理对外对内的API服务。提供快速将数据表生成API的能力,同时支持快速注册现有API至数据服务平台,进行统一的管理和发布。
  5. 数据治理:多种数据处理视角下的数据治理流程与工具引导,满足数据生产、数据使用、数据管理场景下的主要数据治理需求,如数据质量、数据地图、安全中心、数据保护伞。
  6. 任务运维:各种数据处理任务的发布、监管、运维。

2. DataWorks的应用

2.1 数据处理部分

2.1.1 数据输入(数据同步)

数据同步是数据流程处理的第一步:如图

数据集成有以下几个特点:

  • 仅支持结构化的数据
  • 支持单地域内及部分跨地域的相互同步、交换
  • 完成数据同步,本身不提供数据流的消费方式

通常来说,数据同步都是将业务系统中产生的业务数据定期导入到工作区,通过工作流任务的加工处理后,再将计算结果定期导入到指定的数据源中,供进一步展示或者使用。

2.1.2 数据开发

数据开发是在数据集成之后的工作,在大数据处理中的位置如下:

数据开发模式采用项目>解决方案>业务流程三级结构,按照业务种类将相关的不同类型的节点任务组织在一起。

  • 项目:权限组织的基本单位,用来控制用户的开发、运维等权限。
  • 解决方案:可以定义组合一些业务流程为一个解决方案。一个方案可以包含多个流程;解决方案之间可以复用相同的流程;组织完成的解决方案可以沉浸式开发。
  • 业务流程:对业务的抽象实体,以业务的角度来组织数据代码开发,业务流程可以被多个解决方案复用。

开发流程如下:这里展示的是odps sql的开发流程,其他的开发流程大同小异。

2.1.3 任务运维

数据开发完成的任务部署到生产调度,调度系统每天运行着大量的数据处理任务,任务之间依赖复杂,保证任务按时正常运行。任务运维在大数据处理的部分如下:

DataWorks的任务运维是在运维中心模块进行,主要包括的功能:

智能监控模块是DataWorks任务运行的监控及分析系统,根据监控规则和任务运行的情况,智能监控决策是否报警、何时报警、如何报警、以及报警给给谁,智能监控会自动选择最合理的报警时间,报警方式以及报警对象。

2.2 数据管理

DataWorks的数据管理通过数据地图功能实现对数据的统一管理和血缘的跟踪。数据地铁以数据搜索为基础,提供表使用说明、数据类目、数据血缘、字段血缘等工具,帮助数据表的使用者和拥有者更好地管理数据、协作开发。

数据地图

3. 总结

这一部分DataWorks的介绍主要偏向于理论,大家只要记得DataWorks是一个集成各种大数据处理功能的平台即可。

4. 参考资料

《阿里云全球培训中心》
《阿里云DataWorks使用手册》

相关文章