---
title: Airflow DAG 可靠性与调度(重试、并发、队列与 Sensor)
keywords:
- Airflow
- DAG
- 重试
- 并发
- Sensor
description: 提升 Airflow DAG 的稳定性与可观测性,配置重试与并发、队列与 Sensor,并给出可验证的实践方法。
date: 2025-11-26
categories:
- 文章资讯
- 技术教程
---
Airflow DAG 可靠性与调度(重试、并发、队列与 Sensor)
关键实践与参数
- 任务重试:
retries与retry_delay;指数退避与最大重试窗口。 - 并发与队列:
dag_concurrency、max_active_runs与队列隔离资源。 - Sensor:使用
ExternalTaskSensor/S3KeySensor等阻塞型需reschedule模式降低占用。 - 失败通知:On-failure 回调与告警渠道;审计上下文记录。
验证方法
- 演练上游失败与延迟;观察 Sensor 与重试行为。
- 指标与日志:任务耗时、重试次数、队列堆积与 SLA 违约。
- 压测 DAG 并发;评估资源瓶颈与调度延迟。
注意事项
- 资源与连接管理;避免长时间持有数据库连接。
- 定期归档日志与任务元数据,控制存储成本。
- DAG 版本化与回滚策略,保障快速恢复。

发表评论 取消回复