airflow HiveOperator实例

时间：2020-06-02 15:56:16 阅读：607 评论：0 收藏：0 [点我收藏+]

此实例的测试环境是airflow部署在服务器而不是部署在容器

hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，

并提供简单的 sql 查询功能，可以将 sql 语句转换为 MapReduce 任

务进行运行。在 airflow 中调用 hive 任务，首先需要安装依赖

pip install apache-airflow[hive]

编写dag文件

from airflow import DAG
from airflow.operators import HiveOperator
from datetime import datetime, timedelta
from airflow.models import Variable
from airflow.operators import ExternalTaskSensor
from airflow.operators import EmailOperator

default_args = {
    ‘owner‘: ‘airflow‘,
    ‘depends_on_past‘: False,
    ‘start_date‘: datetime(2019, 6, 1),
    ‘email‘: [‘810905729@qq.com‘],
    ‘email_on_failure‘: False,
    ‘email_on_retry‘: False,
    ‘retries‘: 1,
    ‘retry_delay‘: timedelta(minutes=1),
    ‘end_date‘: datetime(9999, 1, 1),
}

dag = DAG(‘dw_ly‘, default_args=default_args, schedule_interval=‘30 10 * * *‘,  catchup=False)

t1 = HiveOperator(
    task_id=‘dw_ly‘,
    hql=‘select * from test1.employee ‘,
    dag=dag)
t1

airflow HiveOperator实例

原文：https://www.cnblogs.com/braveym/p/13031217.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)