Silences

Тема дорожной карты · Grafana

Тишины в Grafana Alerting временно подавляют уведомления для алертов, чьи метки соответствуют набору условий сопоставления, позволяя операторам замолчать ожидаемые алерты во время плановых окон обслуживания, деплойментов или известных инцидентов без изменения основных правил алертинга. Тишина создаётся в Alerting > Silences путём указания одного или нескольких сопоставителей меток (например, instance=~"db-.*" и severity=warning), времени начала и окончания, а также необязательного комментария с пояснением причины тишины. Пока тишина активна, соответствующие алерты Grafana продолжают вычисляться и переходить между состояниями в обычном режиме — только отправка уведомлений через точки доставки прекращается. Тишины отображаются в интерфейсе Grafana с указанием их статуса: активные, ожидающие или истёкшие; существующие тишины можно продлить или досрочно завершить, нажав соответствующие кнопки в списке тишин. В отличие от политик уведомлений, которые постоянно маршрутизируют алерты на основе меток, тишины по своей сути ограничены во времени и являются правильным инструментом для кратковременного подавления, а не для структурных изменений конфигурации маршрутизации Grafana Alerting.

Как это работает

Silences (unified alerting с Grafana 9) позволяет определять alert rules с PromQL/LogQL/SQL-запросами + периодически оценивать + роутить к contact points. Rules в папках; папки наследуют notification policies. Notification channels: Slack, PagerDuty, OpsGenie, Telegram, email, webhook, MS Teams. Состояния алертов: Normal, Pending (условие выполнено, но ещё не дошло до "for"-длительности), Firing.

Когда применять

Grafana alerting — если хотите алерты, охватывающие несколько datasources (одно правило, комбинирующее Prometheus + Loki — полезно для SLO с errors + latency). Prometheus + Alertmanager напрямую — если хотите single PromQL/Alertmanager-стек. Выберите один и держитесь его; гонять оба создаёт путаницу дублирования правил.

Типичные ошибки

Ловушки Silences: алерты без "for:"-длительности (flapping); имена алертов без контекста (HighCPU — на чём? когда?); нет runbook-ссылки в annotations; все алерты в один Slack-канал (alert fatigue — роутьте по severity).

Связанные понятия

Полезные ресурсы