Grafana Stack (LGTM)
Тема дорожной карты · Observability
Стек Grafana LGTM — Loki, Grafana, Tempo и Mimir (или Prometheus) — это полностью открытая, self-hosted платформа наблюдаемости, охватывающая все три столпа: метрики (Mimir/Prometheus), логи (Loki) и распределённые трассировки (Tempo), с Grafana в качестве единого слоя визуализации и алертинга. Каждый компонент спроектирован для горизонтального масштабирования с использованием объектного хранилища (S3, GCS) для долгосрочного хранения, что делает стек Grafana LGTM экономичной альтернативой коммерческим SaaS-решениям наблюдаемости при больших объёмах данных. Стек принимает телеметрию из OpenTelemetry через otel-collector, который направляет метрики в Prometheus или Mimir, логи в Loki через экспортер loki, а трассировки в Tempo по протоколу OTLP. Нативные связи между компонентами — эксемпляры Grafana связывают метрики Prometheus с трассировками Tempo, а derived_fields Tempo связывают trace ID с поиском логов в Loki — создают бесшовный опыт наблюдаемости без выхода из интерфейса Grafana. Весь стек Grafana LGTM можно развернуть в Kubernetes с помощью официальных Helm-чартов из репозитория чартов grafana, управляя конфигурацией через переопределения values.yaml.
Как это работает
Grafana Stack (LGTM) — команда + тулинг, через которые течёт observability-data. Self-hosted CNCF-стек: Prometheus + Loki + Tempo + Grafana + Alertmanager ("LGTM"-стек) или VictoriaMetrics-based эквиваленты. Коммерческий SaaS: Datadog, New Relic, Honeycomb, Lightstep (теперь ServiceNow), Grafana Cloud. Для РФ: Yandex Cloud Monitoring + self-hosted LGTM. Multi-tenancy через Mimir / Cortex, если обслуживаете внутренних клиентов.
Когда применять
Начните с self-hosted LGTM (бесплатно, open, без vendor lock-in). Переход на managed (Grafana Cloud и т.д.) — когда ops-время на платформу превышает product-инженерное. Для РФ / суверенности self-hosted обычно единственный выбор; Yandex Cloud Observability быстро улучшается как альтернатива. Не покупайте enterprise observability до того, как переросли OSS — дорого.
Типичные ошибки
Ловушки Grafana Stack (LGTM): деплой CNCF-стека без owner-команды (стек гниёт — компоненты дрейфуют, дашборды ломаются, никто не отвечает); over-engineering ("нужны Mimir + Tempo + Loki + Pyroscope + Tempo с первого дня" для 5-инженерного стартапа); vendor lock-in через vendor-специфичное инструментирование (OTel везде).