SLI — индикаторы

Тема дорожной карты · Observability

Service Level Indicator (SLI) — это количественная мера конкретного аспекта поведения сервиса с точки зрения его пользователей. Типичные SLI включают коэффициент успешных запросов, задержку при заданном перцентиле (например, время отклика p99), частоту ошибок и пропускную способность данных. SLI выводятся из данных наблюдаемости — как правило, метрик, собираемых Prometheus или генерируемых через OpenTelemetry, — и должны тщательно выбираться так, чтобы отражать то, что реально важно пользователям, а не внутренние детали реализации. Хорошо определённый SLI — это фундамент, на котором строятся SLO; без надёжного измерения SLI невозможно понять, достигаются ли цели надёжности. При инструментировании SLI команды нередко публикуют их через пользовательские recording rules в Prometheus для эффективного предварительного агрегирования высококардинальных исходных данных.

Как это работает

SLI — индикаторы: SLI (Service Level Indicator) — измерение здоровья сервиса (например "доля HTTP 200"). SLO (Objective) — таргет для этого SLI ("99.9% за 30 дней"). SLA (Agreement) — контрактное обещание клиентам ("99.5% или refund"). Error budget = 1 - SLO; тратится на релизы + эксперименты. Burn-rate alerts (multi-window, multi-burn-rate) ловят fast + slow burn с подходящей чувствительностью.

Когда применять

Определите SLI + SLO до масштабирования reliability-работы — без них спорите вечно про "достаточно хорошо". Начните с availability + latency SLI (probe_success_ratio, request_latency_p99). SLO на 99% / 99.9% — 99.99% звучит хорошо, но цена экспоненциальная. Алерты на основе SLO (burn rate), не threshold-алерты на сырых метриках. Прочтите главу про SLO в SRE-книге Google.

Типичные ошибки

Ловушки SLI — индикаторы: SLO без buy-in от продукта + инженерии ("бумажный SLO"); SLO, которые никто не трекает (дрейф); путаница SLA (юридическое) и SLO (инженерный таргет) — должны быть разными (SLO жёстче); error budget никогда не тратится ("слишком осторожны"); SLO-таргеты заданы случайной надеждой, не cost-анализом.

Связанные понятия

Полезные ресурсы