On-call практики

Практики дежурства определяют, как инженерные команды управляют круглосуточной ответственностью за реагирование на продакшен-инциденты и поддержание надёжности сервисов. Здоровые практики дежурства начинаются с поддержания низкого объёма алертов и actionable-характера каждого из них: дежурный инженер должен получать вызов только при проблемах, действительно требующих человеческого вмешательства, что измеряется риском нарушения SLO. Расписания дежурств должны равномерно распределять дежурную нагрузку между членами команды, а встречи по передаче дежурства — переносить контекст, открытые вопросы и инсайты наблюдаемости от уходящего к заступающему дежурному инженеру. Сопровождение во время дежурства — когда старший инженер работает в паре с менее опытным — это эффективный способ развить навыки реагирования на инциденты и знакомство с дашбордами Grafana команды, runbook-ами и путями эскалации. Отслеживание метрик нагрузки дежурства (алертов за смену, времени, затраченного на реагирование, бюджета SLO, израсходованного в дежурные часы) на специализированном дашборде наблюдаемости помогает руководству выявлять неустойчивую нагрузку и расставлять приоритеты инвестиций в надёжность.

Как это работает

On-call практики — практика обнаружения + диагностики + разрешения проблем сервиса. Процесс: алерт срабатывает → on-call подтверждает → triage (impact, severity) → mitigate (rollback, scale, restart) → исследование root cause → postmortem (blameless, lessons learned, action items). Инструменты: PagerDuty / OpsGenie (paging), Slack / Discord (war room), Statuspage (для клиентов), Jira / Linear (action items). Практикуйте game days — учения без реальных инцидентов.

Когда применять

Стройте incident response с первого реального outage — postmortem на каждый, даже минорный. Поддерживайте шаблон incident-runbook (impact summary, timeline, mitigation, root cause, action items). Game days раз в квартал — поддельный outage в staging, run response. Трекайте time-to-acknowledge + time-to-mitigate как SLI для on-call команды.

Типичные ошибки

Ловушки On-call практики: blameful postmortems (инженеры прячут будущие инциденты); postmortems без action items (уроки не учены); on-call ротации без нормального handoff (knowledge silos); нет statuspage (клиенты долбят support при outage); не тестируете алерты (день, когда они нужны = день, когда они сломаются).

Как это работает

Когда применять

Типичные ошибки

Связанные понятия

Полезные ресурсы