Self-hosted стек

Тема дорожной карты · Observability

Self-hosted стек наблюдаемости предоставляет организациям полный контроль над их телеметрическими данными, затратами на хранение и версиями программного обеспечения, что делает его популярным для окружений с требованиями соответствия нормативным требованиям и команд, стремящихся избежать привязки к SaaS-поставщику. Наиболее распространённая self-hosted архитектура наблюдаемости объединяет Prometheus (или Grafana Mimir для мультитенантного долгосрочного хранения) для метрик, Grafana Loki для логов, Grafana Tempo для распределённых трассировок и Grafana в качестве единого слоя дашбордов — стек LGTM. Телеметрия собирается с помощью otel-collector, экспортеров Prometheus и Promtail (для отправки логов), настраиваемых через YAML-файлы, развёртываемые вместе с рабочими нагрузками приложений в Kubernetes. Основные компромиссы self-hosted наблюдаемости — операционные накладные расходы (обновления, управление хранилищем, планирование ёмкости) против экономии средств и суверенитета данных по сравнению с SaaS-альтернативами, такими как Datadog или New Relic. Запуск полноценного self-hosted стека наблюдаемости в масштабе продакшена требует выделенных инженерных усилий по платформе: настройки бэкендов объектного хранилища, определения политик хранения в loki-config.yaml и tempo.yaml, и обеспечения высокой доступности всех компонентов.

Как это работает

Self-hosted стек — команда + тулинг, через которые течёт observability-data. Self-hosted CNCF-стек: Prometheus + Loki + Tempo + Grafana + Alertmanager ("LGTM"-стек) или VictoriaMetrics-based эквиваленты. Коммерческий SaaS: Datadog, New Relic, Honeycomb, Lightstep (теперь ServiceNow), Grafana Cloud. Для РФ: Yandex Cloud Monitoring + self-hosted LGTM. Multi-tenancy через Mimir / Cortex, если обслуживаете внутренних клиентов.

Когда применять

Начните с self-hosted LGTM (бесплатно, open, без vendor lock-in). Переход на managed (Grafana Cloud и т.д.) — когда ops-время на платформу превышает product-инженерное. Для РФ / суверенности self-hosted обычно единственный выбор; Yandex Cloud Observability быстро улучшается как альтернатива. Не покупайте enterprise observability до того, как переросли OSS — дорого.

Типичные ошибки

Ловушки Self-hosted стек: деплой CNCF-стека без owner-команды (стек гниёт — компоненты дрейфуют, дашборды ломаются, никто не отвечает); over-engineering ("нужны Mimir + Tempo + Loki + Pyroscope + Tempo с первого дня" для 5-инженерного стартапа); vendor lock-in через vendor-специфичное инструментирование (OTel везде).

Связанные понятия

Полезные ресурсы