Метрики (Prometheus)

Метрики — числовые измерения, собираемые с регулярными интервалами из бэкенд-сервисов и инфраструктуры, предоставляющие количественные сигналы для дашбордов, алертинга и планирования ёмкости в продакшен-системах. В облачно-нативной экосистеме Prometheus является де-факто системой сбора метрик: бэкенд-сервисы предоставляют HTTP-эндпоинт /metrics через клиентские библиотеки для Go, Python, Java и Node.js, а Prometheus опрашивает эти эндпоинты с настраиваемым интервалом, сохраняя данные временных рядов, запрашиваемые через PromQL. Четыре золотых сигнала — задержка (p50/p99 времени запроса), трафик (запросов в секунду), частота ошибок (доля HTTP 5xx), насыщение (CPU, память, глубина очереди) — дают бэкенд-разработчикам лаконичный фреймворк для инструментирования REST API-сервисов и микросервисов. Метрики визуализируются в дашбордах Grafana и используются для формирования правил алертов Prometheus, оповещающих дежурных инженеров через Alertmanager при нарушении пороговых значений SLO. Kubernetes-кластеры предоставляют метрики узлов и подов через kube-state-metrics и metrics-server, позволяя политикам автомасштабирования (HPA/VPA) динамически реагировать на изменения нагрузки; Infrastructure as Code (IaC) через Terraform или Helm управляет конфигурациями сбора метрик совместно с деплоями приложений.

Как это работает

Метрики (Prometheus) для backend имеет три столпа: метрики (Prometheus-style, scrape), логи (структурированный JSON, в Loki/Elastic), traces (OpenTelemetry → Jaeger/Tempo). Добавляйте четыре золотых сигнала — latency, traffic, errors, saturation — на каждый сервис. Алертите на SLI burn (например > 1% ошибок за 5 минут), не на сырой CPU. Корреляция logs ↔ traces ↔ metrics через trace ID. Self-hosted альтернативы (Grafana stack, SigNoz) избегают vendor lock-in Datadog/New Relic.

Когда применять

Observability — до первого платящего клиента; дебаг без неё — гадание. Начните со структурированного логирования + Prometheus-метрик + дашбордов по четырём золотым сигналам. Tracing — когда сервисов больше одного или хотите копать в распределения latency. Self-host Grafana + Loki + Mimir/Prometheus для RF / суверенности; SaaS (Grafana Cloud, Datadog) — для самого быстрого setup, если регуляторы позволяют.

Типичные ошибки

Ловушки Метрики (Prometheus): всё логируется как plain text (console.log) — неразбираемо; high-cardinality метрики (request-id, user-id) взрывают storage Prometheus; alert fatigue (слишком много низкоприоритетных алёртов → реальные игнорируются); нет SLO (без него нельзя сказать "система здорова"). SLO/SLI словарь — с первого дня.

Как это работает

Когда применять

Типичные ошибки

Связанные понятия

Полезные ресурсы