Алертинг

Grafana Alerting — это унифицированная система оповещений, встроенная в Grafana: она вычисляет правила алертинга против любого поддерживаемого источника данных, управляет маршрутизацией уведомлений через настраиваемые политики и предоставляет центральный интерфейс для просмотра и подавления активных алертов — всё это без необходимости развёртывания отдельного Alertmanager. Grafana Alerting пришла на смену устаревшей системе алертинга на уровне панелей в Grafana 8 и теперь является рекомендуемым подходом: она поддерживает многомерные алерты (одно правило срабатывает для каждого уникального набора меток), правила для нескольких источников данных и историю состояний алертов. Архитектура Grafana Alerting строится вокруг четырёх ключевых концепций: правила алертинга (условия, инициирующие алерты), точки доставки (каналы отправки уведомлений), политики уведомлений (дерево маршрутизации, связывающее метки алертов с точками доставки) и тишины (временные подавления для окон обслуживания). Grafana Alerting вычисляет правила по настраиваемому расписанию с помощью движка оценки алертов серверной части Grafana, и состояние каждого алерта — Normal, Pending, Firing или NoData — отслеживается и отображается в Alerting > Alert rules в интерфейсе Grafana. Для высокодоступных установок Grafana Alerting можно настроить для использования внешнего Alertmanager (включая Prometheus Alertmanager) для дедупликации и доставки уведомлений, сохраняя Grafana в качестве интерфейса для вычисления и управления правилами.

Как это работает

Алертинг (unified alerting с Grafana 9) позволяет определять alert rules с PromQL/LogQL/SQL-запросами + периодически оценивать + роутить к contact points. Rules в папках; папки наследуют notification policies. Notification channels: Slack, PagerDuty, OpsGenie, Telegram, email, webhook, MS Teams. Состояния алертов: Normal, Pending (условие выполнено, но ещё не дошло до "for"-длительности), Firing.

Когда применять

Grafana alerting — если хотите алерты, охватывающие несколько datasources (одно правило, комбинирующее Prometheus + Loki — полезно для SLO с errors + latency). Prometheus + Alertmanager напрямую — если хотите single PromQL/Alertmanager-стек. Выберите один и держитесь его; гонять оба создаёт путаницу дублирования правил.

Типичные ошибки

Ловушки Алертинг: алерты без "for:"-длительности (flapping); имена алертов без контекста (HighCPU — на чём? когда?); нет runbook-ссылки в annotations; все алерты в один Slack-канал (alert fatigue — роутьте по severity).

Как это работает

Когда применять

Типичные ошибки

Связанные понятия

Полезные ресурсы