SLA — соглашения

Тема дорожной карты · Observability

Service Level Agreement (SLA) — это формальный договор между поставщиком услуги и его клиентами, определяющий минимально допустимый уровень качества обслуживания и последствия — такие как кредиты или возвраты средств — в случае его несоблюдения. SLA обычно устанавливаются более консервативно, чем внутренние SLO, чтобы создать запас: если внутренний SLO составляет 99,9% доступности, клиентский SLA может предусматривать лишь 99,5%. Нарушение SLA влечёт прямые бизнес-последствия, что делает отслеживание SLA критически важной частью отчётности об уровне наблюдаемости для руководства. Команды отслеживают соблюдение SLA путём агрегирования данных SLI из Prometheus или централизованной платформы наблюдаемости, нередко отображая процентные показатели соответствия на специализированных дашбордах Grafana. Хорошо составленные SLA включают методологию измерения, периоды отчётности и исключения (например, плановые технические работы), чтобы избежать неоднозначности.

Как это работает

SLA — соглашения: SLI (Service Level Indicator) — измерение здоровья сервиса (например "доля HTTP 200"). SLO (Objective) — таргет для этого SLI ("99.9% за 30 дней"). SLA (Agreement) — контрактное обещание клиентам ("99.5% или refund"). Error budget = 1 - SLO; тратится на релизы + эксперименты. Burn-rate alerts (multi-window, multi-burn-rate) ловят fast + slow burn с подходящей чувствительностью.

Когда применять

Определите SLI + SLO до масштабирования reliability-работы — без них спорите вечно про "достаточно хорошо". Начните с availability + latency SLI (probe_success_ratio, request_latency_p99). SLO на 99% / 99.9% — 99.99% звучит хорошо, но цена экспоненциальная. Алерты на основе SLO (burn rate), не threshold-алерты на сырых метриках. Прочтите главу про SLO в SRE-книге Google.

Типичные ошибки

Ловушки SLA — соглашения: SLO без buy-in от продукта + инженерии ("бумажный SLO"); SLO, которые никто не трекает (дрейф); путаница SLA (юридическое) и SLO (инженерный таргет) — должны быть разными (SLO жёстче); error budget никогда не тратится ("слишком осторожны"); SLO-таргеты заданы случайной надеждой, не cost-анализом.

Связанные понятия

Полезные ресурсы