Airflow DAG 可靠性与调度(重试、并发、队列与 Sensor)关键实践与参数任务重试:`retries` 与 `retry_delay`;指数退避与最大重试窗口。并发与队列:`dag_concurrency`、`max_active_runs` 与队列隔离资源。Sensor:使用 `ExternalTaskSensor`/`S3KeySensor` 等阻塞型需 `reschedule` 模式降低占用。失败通知:On-failure 回调与告警渠道;审计上下文记录。验证方法演练上游失败与延迟;观察 Sensor 与重试行为。指标与日志:任务耗时、重试次数、队列堆积与 SLA 违约。压测 DAG 并发;评估资源瓶颈与调度延迟。注意事项资源与连接管理;避免长时间持有数据库连接。定期归档日志与任务元数据,控制存储成本。DAG 版本化与回滚策略,保障快速恢复。

发表评论 取消回复