🍒在上一章中，我们介绍了DataWorks的基本组成结构，其实和我在滴滴实习时候的数梦如出一辙，但是很多其他同学可能没有接触过这一类的产品，这篇博客我将在DataWorks上通过创建项目、同步数据、编写SQL程序、配置调度任务、运维监控等环节，实现完整的数据处理流程。对往期内容感兴趣的同学可以查看下面的内容👇:

🍊本文主要是通过实验来看看DataWorks是如何处理数据的，各种功能的说明都将以实验步骤的形式展现给大家。模拟Mysql数据库为生产系统，实现从生产系统抽取数据到MaxCompute中，进行数据自动化分析处理。

1. 环境准备

启动DataWorks环境：

进入数据开发：

2. 数据同步

2.1 创建数据库

选择RDS（分布式Mysql）：

找到创建的实例：

创建数据库：（名字随便）

创建数据库账号：(用户名和名字符合要求，一定要记住呀！)

创建成功：

登录数据库：

2.2 上传数据到数据库

上一节我们创建了数据库，但里面没有表和数据，所以我们在数据库里创建数据表:

上传本地数据:

任务调度选择执行变更

执行成功

查看数据库中的数据：

2.3 ODPS中添加RDS数据源

这一部分是在大数据环境中配置外部数据源。

在DataWorks中点击数据集成：

新增数据源

选择我们的mysql

连接数据源：

连接成功：

2.4 同步RDS数据到ODPS

数据源配置好了，然后需要将数据导入到DataWorks中。

DataWork中新建业务流程

业务流程命名：

点击离线同步

双击节点，进行数据同步设置。

设置数据来源，选择MySQL库，rds_lab数据源，t_dml_data表。
设置数据去向，选择ODPS库，odps_first数据源，点击一键生成目标表。

字段映射：

设置通道控制信息：

设置调度资源配置

设置完保存,记得一定要保存。
同步数据，设置完成后，“提交”业务流程。

提交成功后点击运行：

执行成功：

可以预览数据表：

3. 数据开发

本小节目的是创建目标表t_dml_result，用于存储数据分析后产生的结果。

3.1 创建开发的表

进入数据开发页面，点击“临时查询”，右键新建节点ODPS SQL；

输入节点名字，提交：

我们创建一张分区表

创建成功后，在公共表中可以找到：

3.2 新建业务流程

进入数据开发页面，展开左侧菜单，点击“数据开发”，选择“新建业务流程”；

新建虚拟节点:打开业务流程，在“通用”中点击“虚拟节点”，输入节点名后点击“提交”。

节点命名

在“MaxCompute”中，点击“ODPS SQL”，输入节点名称后点击“提交”。

双击数据节点，编辑SQL语句，点击“保存”。

设置依赖关系

节点间通过拖拽连线形成上下游依赖关系。

提交业务流程

提交成功

右击节点查看属性

4. 任务运维

4.1 打开运维中心

DataWorks的右上角‘运维中心’

4.2 运维中心功能

运维中心包括运维大屏、实时任务运维、周期任务运维、手动任务运维、智能监控五大模块。

任务列表分周期任务和手动任务。

周期任务：调度系统按照调度配置自动定时执行的任务。
手动任务：新建任务时，调度类型选择手动任务后，提交到调度系统的任务。

选择左侧菜单栏中的“周期任务运维“->“周期任务”，查看已提交的周期任务。选中任务，点击鼠标右键，可执行相应操作。

4.3 智能监控模块

智能监控模块在如下位置：

智能监控监控规则

5. 数据管理

这部分主要是在数据地图中实现

然后查找你需要的表

数据地图模块可进行组织内全局数据视图的查看、分权管理、元数据信息详情、数据生命周期管理、数据表/资源/函数权限管理审批等操作。

6. 总结

在这一部分中，主要实现的是数据源的接入、简单的数据开发、调度任务的发布、数据地图的查看这一系列流程，博主在滴滴实习时，和这套流程一模一样，当做是又开发了一个项目吧，哈哈哈！区别在于，以前加入项目，创建表啥的都需要主管审批，但做这次的实验，权限控制需要自己来设置，也算是体验了一把拥有高级权限的感觉，大家可以看着我的过程慢慢理解！

7. 参考资料

《阿里云全球培训中心》
《阿里云DataWorks使用手册》

阿里云DataWorks学习之平台实践