Distributed tracing

Распределённая трассировка — техника наблюдаемости, отслеживающая сквозной путь запроса по мере его распространения через несколько микросервисов, баз данных и очередей сообщений, позволяя разработчикам выявлять узкие места задержки и точки сбоев, невидимые в изолированных логах или метриках сервисов. Каждая операция записывается как Span с уникальным SpanID, сгруппированным под общим TraceID, который распространяется через HTTP-заголовки (traceparent в формате W3C Trace Context или X-B3-TraceId в формате Zipkin) и заголовки Kafka-сообщений по мере движения запросов между сервисами. Популярные бэкенды для распределённой трассировки — Jaeger и Zipkin, оба визуализируют водопады трассировок, показывающие, как время расходуется на запросы к PostgreSQL, поиск в кеше Redis, gRPC-вызовы и поиск в Elasticsearch в рамках единственного пользовательского запроса. SDK OpenTelemetry (otel) стал стандартным слоем инструментирования — доступен для Go, Python, Java, Node.js и C# — позволяя командам собирать трассировки, метрики и логи через единственный API и экспортировать в любой совместимый бэкенд без привязки к вендору. Распределённая трассировка наиболее ценна в микросервисных архитектурах, где единственный REST API-запрос расходится по пяти и более нижестоящим сервисам; она интегрируется с CI/CD-пайплайнами для автоматического обнаружения регрессий производительности между деплоями.

Как это работает

Distributed tracing для backend имеет три столпа: метрики (Prometheus-style, scrape), логи (структурированный JSON, в Loki/Elastic), traces (OpenTelemetry → Jaeger/Tempo). Добавляйте четыре золотых сигнала — latency, traffic, errors, saturation — на каждый сервис. Алертите на SLI burn (например > 1% ошибок за 5 минут), не на сырой CPU. Корреляция logs ↔ traces ↔ metrics через trace ID. Self-hosted альтернативы (Grafana stack, SigNoz) избегают vendor lock-in Datadog/New Relic.

Когда применять

Observability — до первого платящего клиента; дебаг без неё — гадание. Начните со структурированного логирования + Prometheus-метрик + дашбордов по четырём золотым сигналам. Tracing — когда сервисов больше одного или хотите копать в распределения latency. Self-host Grafana + Loki + Mimir/Prometheus для RF / суверенности; SaaS (Grafana Cloud, Datadog) — для самого быстрого setup, если регуляторы позволяют.

Типичные ошибки

Ловушки Distributed tracing: всё логируется как plain text (console.log) — неразбираемо; high-cardinality метрики (request-id, user-id) взрывают storage Prometheus; alert fatigue (слишком много низкоприоритетных алёртов → реальные игнорируются); нет SLO (без него нельзя сказать "система здорова"). SLO/SLI словарь — с первого дня.

Как это работает

Когда применять

Типичные ошибки

Связанные понятия

Полезные ресурсы