remote_write

Конфигурация remote_write в Prometheus позволяет серверу пересылать опрошенные образцы метрик в реальном времени в одно или несколько удалённых хранилищ, являясь основной точкой интеграции для долгосрочного хранения метрик и многотенантных систем. При наличии настроенного remote_write в prometheus.yml Prometheus поддерживает очередь журнала с опережающей записью (WAL) в памяти и отправляет образцы пакетами на удалённый эндпоинт по HTTP с использованием протокола удалённой записи Prometheus (protobuf). Бэкенды Thanos Receive, Grafana Mimir, Cortex, VictoriaMetrics и InfluxDB поддерживают протокол remote_write, позволяя Prometheus выступать агентом сбора данных, делегируя надёжность и долгосрочное хранение более масштабируемой системе. Блок remote_write поддерживает параметры настройки queue_config (с настройками capacity, max_samples_per_send, batch_send_deadline), write_relabel_configs для фильтрации метрик перед пересылкой, а также параметры TLS и аутентификации. Мониторинг метрик prometheus_remote_storage_* необходим для обнаружения переполнения очереди и сбоев доставки в конвейере remote_write.

Как это работает

remote_write — локальная TSDB по дефолту: chunks на диске, compaction в фоне, без кластеризации. Retention по времени (--storage.tsdb.retention.time) или размеру (--storage.tsdb.retention.size). Для long-term + clustered: Thanos (sidecar + object store), Cortex / Mimir (multi-tenant, горизонтальный), VictoriaMetrics (drop-in совместимый, часто проще эксплуатировать). Remote write/read API позволяет Prometheus push samples во внешние системы.

Когда применять

Для < 1 года данных + < ~1M samples/sec локальный Prometheus достаточен. За пределами: VictoriaMetrics — простейший scale-up путь (лучше сжатие, быстрее, меньше движущихся частей, чем Thanos). Thanos/Mimir — если нужна object-storage-долговечность + multi-cluster federation. Планируйте retention vs cardinality — высокая cardinality + долгий retention = дорого.

Типичные ошибки

Ловушки remote_write: ротация persistent-volume Prometheus + потеря всех данных; расчёт federation = HA (это read-агрегация, не репликация); высокая write rate без SSD I/O (TSDB-writes I/O-тяжёлые); миграция на Thanos без понимания операционной сложности (много движущихся частей).

Как это работает

Когда применять

Типичные ошибки

Связанные понятия

Полезные ресурсы