Grafana
Тема дорожной карты · Observability
Grafana — наиболее широко используемая открытая платформа для визуализации данных наблюдаемости, предоставляющая гибкий интерфейс дашбордов, способный одновременно запрашивать метрики, логи, трассировки и данные непрерывного профилирования из десятков источников данных. Нативная интеграция с Prometheus, Loki, Grafana Tempo, Pyroscope, InfluxDB, Elasticsearch и облачными провайдерами делает её центральным UI наблюдаемости в большинстве современных стеков мониторинга. Дашборды Grafana строятся из панелей (графики временных рядов, стат-панели, тепловые карты, таблицы), подключённых к запросам источников данных — панели Prometheus используют PromQL, панели Loki — LogQL, — и могут быть параметризованы переменными для охвата всех сервисов и окружений одним дашбордом. Правила алертинга можно определять непосредственно в панелях Grafana и маршрутизировать в Alertmanager, PagerDuty или другие каналы уведомлений через единую систему алертинга Grafana. Дашборды как код — лучшая практика: предоставление дашбордов из JSON-файлов, хранящихся в системе контроля версий, через конфигурацию провизионирования dashboards в Grafana обеспечивает согласованность между развёртываниями.
Как это работает
Grafana визуализируют здоровье системы. Слои: service overview (4 золотых сигнала — быстрый triage), service deep-dive (per-endpoint, per-error-type), infrastructure (хосты, контейнеры, сеть), бизнес-метрики (sign-ups, revenue), SLO compliance (burn rate, остаток error budget). Стройте библиотеку шаблонов + переиспользуйте. Тегайте дашборды. Папки + permissions для организации по команде.
Когда применять
Service overview dashboard на каждый сервис с первого дня — та же форма, параметризованная именем сервиса. SLO + error-budget дашборды — когда SLO существуют. Не стройте дашборды, на которые никто не смотрит — трекайте views дашбордов (Grafana usage analytics) + увольняйте мёртвые.
Типичные ошибки
Ловушки Grafana: per-engineer "личные" дашборды в shared-папках (мусор); дашборды грузят 200 series + 30 секунд (делите или агрегируйте); непоследовательные legend/цвета между дашбордами (cognitive load); нет shared dashboard-библиотеки (каждая команда переизобретает колесо).