首页 > 其他 > 详细

Airflow Dag可视化管理编辑工具Airflow Console

时间:2020-07-29 19:42:12      阅读:74      评论:0      收藏:0      [点我收藏+]

Airflow Console: https://github.com/Ryan-Miao/airflow-console

Apache Airflow扩展组件,
可以辅助生成dag, 并存储到git仓库.

Airflow提供了基于python语法的dag任务管理,我们可以定制任务内容
和任务依赖. 但对于很多数据分析人员来说,操作还是过于复杂. 期望可以
通过简单的页面配置去管理dag.
即本项目提供了一个dag可视化配置管理方案.

如何使用

一些概念

DAG: Airflow原生的dag, 多个任务依赖组成的有向无环图, 一个任务依赖链。

Ext Dag: DAG扩展, DAG生成模板,通过页面配置Ext Dag可以一键生成DAG python配置。

Ext Dag Category: Airflow原生不提供分类的概念,但Console我们扩展了分类功能, 我们创建不同Dag模板可以分属于不同的DAG分类。

Ext Dag Task: Ext Dag的任务,真正任务的封装体,分为Operator和Sensor, 可以组装成Ext Dag.

1.创建业务分类.

我们的调度任务可以根据业务进行分类. 首先创建我们的业务类型.
技术分享图片
技术分享图片

2.创建dag

技术分享图片

3.创建任务

点击task按钮进入task列表, 再点击add添加一个任务.

添加bash任务
技术分享图片

添加hive sql任务
技术分享图片

添加hive出库到mysql任务, 对应的插件为hive_to_rdbms_operator
技术分享图片

4.配置任务依赖关系

Airflow提供了任务上下游依赖的管理方案,具体就是使用python的 >> 语法

a >> b 表示a的{{ds}}的任务执行完毕才可以执行b.

技术分享图片

点击更新按钮保存依赖关系.

5.生成dag.py脚本

点击提交按钮, 生成python脚本预览.
技术分享图片

确认没有问题后, 提交就可以将dag保存的git仓库. Airflow那边定时拉取git更新即可.

技术分享图片

本地启动

通过docker-airflow

启动airflow, 暴露pg端口和webserver端口,
docker-compose.yml

cd doc
docker-compose up

启动后访问localhost:8090即airflow初始化完成.

  1. 修改本项目db

修改application-dev.yml中DataSource的url host为localhost.

  1. 导入db

schema.sql导入pg.

  1. 启动本项目

访问localhost:8081/api 即swagger地址.

  1. 启动web

Airflow Dag可视化管理编辑工具Airflow Console

原文:https://www.cnblogs.com/woshimrf/p/airflow-console.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!