Datadog
Тема дорожной карты · Observability
Datadog — комплексная облачно-нативная SaaS-платформа наблюдаемости и мониторинга, объединяющая метрики, логи, распределённые трассировки, непрерывное профилирование и синтетический мониторинг в единый продукт. Агент Datadog — устанавливаемый на хостах или запускаемый как DaemonSet в Kubernetes — собирает системные и прикладные метрики, отслеживает лог-файлы и пересылает всю телеметрию в облачный бэкенд Datadog, а также принимает данные OpenTelemetry через OTLP по адресу OTEL_EXPORTER_OTLP_ENDPOINT=http://<datadog-agent>:4317. APM Datadog (Application Performance Monitoring) обеспечивает распределённую трассировку с автоматической генерацией карты сервисов, коррелируя трассировки с метриками инфраструктуры и логами в едином представлении. Платформа включает продвинутые функции: обнаружение аномалий, прогнозирование, дашборды управления SLO и управление инцидентами, — что делает её полноценным решением наблюдаемости для команд, предпочитающих управляемую инфраструктуру self-hosted альтернативам. Ценообразование Datadog основано на использовании (хосты, пользовательские метрики, объём логов), что требует тщательной настройки наблюдаемости во избежание неожиданного роста затрат при масштабировании.
Как это работает
Datadog — команда + тулинг, через которые течёт observability-data. Self-hosted CNCF-стек: Prometheus + Loki + Tempo + Grafana + Alertmanager ("LGTM"-стек) или VictoriaMetrics-based эквиваленты. Коммерческий SaaS: Datadog, New Relic, Honeycomb, Lightstep (теперь ServiceNow), Grafana Cloud. Для РФ: Yandex Cloud Monitoring + self-hosted LGTM. Multi-tenancy через Mimir / Cortex, если обслуживаете внутренних клиентов.
Когда применять
Начните с self-hosted LGTM (бесплатно, open, без vendor lock-in). Переход на managed (Grafana Cloud и т.д.) — когда ops-время на платформу превышает product-инженерное. Для РФ / суверенности self-hosted обычно единственный выбор; Yandex Cloud Observability быстро улучшается как альтернатива. Не покупайте enterprise observability до того, как переросли OSS — дорого.
Типичные ошибки
Ловушки Datadog: деплой CNCF-стека без owner-команды (стек гниёт — компоненты дрейфуют, дашборды ломаются, никто не отвечает); over-engineering ("нужны Mimir + Tempo + Loki + Pyroscope + Tempo с первого дня" для 5-инженерного стартапа); vendor lock-in через vendor-специфичное инструментирование (OTel везде).