Alertmanager

Alertmanager — это компонент маршрутизации оповещений и отправки уведомлений, работающий совместно с Prometheus в стеке наблюдаемости Kubernetes. Он принимает сработавшие оповещения от Prometheus и направляет их получателям: по электронной почте, в Slack, PagerDuty или через вебхуки. Alertmanager дедуплицирует, группирует и заглушает связанные оповещения с помощью блоков route, receiver и inhibit_rules, определённых в alertmanager.yaml, что предотвращает усталость от оповещений в production-кластерах K8s. Alertmanager поддерживает режим высокой доступности — запускается как StatefulSet с обнаружением пиров через флаг --cluster.peer, гарантируя отсутствие потерь уведомлений при rolling-обновлениях. Оповещения от рабочих нагрузок Kubernetes — сбои Deployment, превышение порогов HPA, проблемы с PersistentVolume — пересылаются в Alertmanager от Prometheus после сопоставления с файлами alerting_rules, что делает Alertmanager центральным узлом для реагирования на инциденты.

Как это работает

Alertmanager даёт видимость поведения кластера и нагрузок через метрики (Prometheus, kube-state-metrics, cAdvisor), логи (kubelet шлёт stdout/stderr контейнера в log-агенты типа Fluent Bit / Vector / Loki) и трейсы (OpenTelemetry collectors + Jaeger/Tempo). Три сигнала коррелируют через labels — namespace, pod, container — так что во время incident response вы можете перейти от аномалии метрики к конкретным логам и трейсам.

Когда применять

Настройте Alertmanager до масштабирования за одну команду или горстку сервисов — отладка проблем distributed system без метрик, логов и трейсов невозможно медленная. Используйте Prometheus + Grafana stack для self-hosted; managed-альтернативы (Datadog, New Relic) снижают операционную нагрузку при большей цене. SLO и alerts идут из того же metric pipeline; проектируйте вместе.

Типичные ошибки

Observability-ловушки: cardinality explosion (high-cardinality labels вроде user-id взрывают Prometheus storage); слишком много alerts (alert fatigue заглушает реальные проблемы); log volumes без retention policies (стоимость storage идёт в спираль); tracing только на API-границе (пропускаете медленные внутренние вызовы). Тюньте по мере роста трафика; observability-решения на низком масштабе не выживают 10x роста.

Как это работает

Когда применять

Типичные ошибки

Связанные понятия

Полезные ресурсы