Три столпа: метрики, логи, трейсы

Три столпа наблюдаемости — метрики, логи и трассировки — каждый предоставляет свою призму, через которую инженеры могут понять работающую систему. Метрики — это числовые измерения временных рядов (например, загрузка CPU, частота запросов), дающие общее представление о состоянии системы и идеально подходящие для дашбордов и SLO-алертинга. Логи — это записи дискретных событий с отметками времени, предоставляющие детальную информацию о том, что и когда произошло, — особенно ценные при анализе постмортемов. Распределённые трассировки связывают связанные операции между несколькими сервисами в единую сквозную картину, позволяя понимать узкие места по задержке и распространение ошибок в микросервисных архитектурах. Вместе три столпа дополняют друг друга: алерт по метрике ведёт к соответствующим трассировкам, а трассировка указывает на строки лога, раскрывающие первопричину. OpenTelemetry стал открытым стандартом инструментирования всех трёх столпов с помощью единого, независимого от поставщика SDK.

Как это работает

Три столпа: метрики, логи, трейсы — это способность задавать произвольные вопросы о внутреннем состоянии системы по её внешнему output без выкатки нового кода. Строится на трёх столпах: метрики (агрегаты по времени), логи (дискретные события с контекстом), traces (пути запросов через сервисы). Современная observability — "спросить + ответить", а не "предзаготовить все дашборды заранее". CNCF-стек (Prometheus + Loki + Tempo + Grafana) и OpenTelemetry — open-source стандарт.

Когда применять

Стройте observability с первого дня — отладка без неё это гадание. Начните со структурированного логирования + метрик + дашбордов на 4 золотых сигнала (latency, traffic, errors, saturation). Distributed tracing — когда сервисов > 2 или нужно копать в latency. Не покупайте коммерческий all-in-one, пока не переросли OSS (Grafana Cloud, Yandex Cloud Observability или self-hosted LGTM-стек — разумные дефолты).

Типичные ошибки

Ловушки Три столпа: метрики, логи, трейсы: мысль "мониторинг = observability" (мониторинг говорит, что известная штука изменилась; observability позволяет исследовать неизвестное); pillar-by-pillar внедрение без корреляции (есть логи + метрики + traces, но pivot между ними невозможен — используйте trace ID везде); покупка observability-тулов вместо практики (тул это 20%, дисциплина 80%).

Как это работает

Когда применять

Типичные ошибки

Связанные понятия

Полезные ресурсы