🍒在上一章中,我们介绍了DataWorks的基本组成结构,其实和我在滴滴实习时候的数梦如出一辙,但是很多其他同学可能没有接触过这一类的产品,这篇博客我将在DataWorks上通过创建项目、同步数据、编写SQL程序、配置调度任务、运维监控等环节,实现完整的数据处理流程。 对往期内容感兴趣的同学可以查看下面的内容👇:
🍊本文主要是通过实验来看看DataWorks是如何处理数据的,各种功能的说明都将以实验步骤的形式展现给大家。模拟Mysql数据库为生产系统,实现从生产系统抽取数据到MaxCompute中,进行数据自动化分析处理。
1. 环境准备
启动DataWorks环境:

进入数据开发:

2. 数据同步
2.1 创建数据库
- 选择RDS(分布式Mysql):

- 找到创建的实例:

- 创建数据库:(名字随便)

- 创建数据库账号:(用户名和名字符合要求,一定要记住呀!)

创建成功:

- 登录数据库:

2.2 上传数据到数据库
- 上一节我们创建了数据库,但里面没有表和数据,所以我们在数据库里创建数据表:

- 上传本地数据:

- 任务调度选择执行变更

执行成功

- 查看数据库中的数据:

2.3 ODPS中添加RDS数据源
这一部分是在大数据环境中配置外部数据源。
- 在DataWorks中点击数据集成:

- 新增数据源

- 选择我们的mysql

- 连接数据源:

连接成功:

2.4 同步RDS数据到ODPS
数据源配置好了,然后需要将数据导入到DataWorks中。
- DataWork中新建业务流程

- 业务流程命名:

- 点击离线同步

- 双击节点,进行数据同步设置。
- 设置数据来源,选择MySQL库,rds_lab数据源,t_dml_data表。
- 设置数据去向,选择ODPS库,odps_first数据源,点击一键生成目标表。




- 设置完保存,记得一定要保存。
- 同步数据,设置完成后,“提交”业务流程。



- 可以预览数据表:

3. 数据开发
本小节目的是创建目标表t_dml_result,用于存储数据分析后产生的结果。
3.1 创建开发的表
- 进入数据开发页面,点击“临时查询”,右键新建节点ODPS SQL;

- 输入节点名字,提交:

- 我们创建一张分区表

- 创建成功后,在公共表中可以找到:

3.2 新建业务流程
- 进入数据开发页面,展开左侧菜单,点击“数据开发”,选择“新建业务流程”;

- 新建虚拟节点:打开业务流程,在“通用”中点击“虚拟节点”,输入节点名后点击“提交”。


- 在“MaxCompute”中,点击“ODPS SQL”,输入节点名称后点击“提交”。

- 双击数据节点,编辑SQL语句, 点击“保存”。

- 设置依赖关系

- 节点间通过拖拽连线形成上下游依赖关系。

- 提交业务流程


- 右击节点查看属性

4. 任务运维
4.1 打开运维中心
- DataWorks的右上角‘运维中心’

4.2 运维中心功能
- 运维中心包括运维大屏、实时任务运维、周期任务运维、手动任务运维、智能监控五大模块。

任务列表分周期任务和手动任务。
- 周期任务:调度系统按照调度配置自动定时执行的任务。
- 手动任务:新建任务时,调度类型选择手动任务后,提交到调度系统的任务。
- 选择左侧菜单栏中的“周期任务运维“->“周期任务”,查看已提交的周期任务。选中任务,点击鼠标右键,可执行相应操作。

4.3 智能监控模块
智能监控模块在如下位置:

- 智能监控监控规则

5. 数据管理
- 这部分主要是在数据地图中实现

- 然后查找你需要的表

- 数据地图模块可进行组织内全局数据视图的查看、分权管理、元数据信息详情、数据生命周期管理、数据表/资源/函数权限管理审批等操作。

6. 总结
在这一部分中,主要实现的是数据源的接入、简单的数据开发、调度任务的发布、数据地图的查看这一系列流程,博主在滴滴实习时,和这套流程一模一样,当做是又开发了一个项目吧,哈哈哈!区别在于,以前加入项目,创建表啥的都需要主管审批,但做这次的实验,权限控制需要自己来设置,也算是体验了一把拥有高级权限的感觉,大家可以看着我的过程慢慢理解!
7. 参考资料
《阿里云全球培训中心》
《阿里云DataWorks使用手册》