Velero для бэкапов

Velero — стандартный инструмент с открытым исходным кодом для резервного копирования и восстановления ресурсов кластера Kubernetes и данных PersistentVolume. Он защищает от случайного удаления, повреждения пространств имён и сценариев миграции кластера. Velero работает, создавая снимки объектов Kubernetes API (Deployment, ConfigMap, Secret, StatefulSet, правила RBAC) в объектное хранилище, совместимое с S3, и при необходимости запускает снимки томов через CSI-совместимый драйвер хранилища. Команда velero backup create <name> --include-namespaces <ns> инициирует резервное копирование по требованию, а плановые резервные копии настраиваются через velero schedule create с cron-выражением. Восстановление из резервной копии выполняется командой velero restore create --from-backup <name>, а пользовательские ресурсы BackupStorageLocation и VolumeSnapshotLocation определяют место хранения артефактов резервных копий в различных K8s-средах.

Как это работает

Velero для бэкапов покрывает day-2 работу эксплуатации Kubernetes-кластера: обновления, node maintenance, capacity planning, backup и DR, оптимизация стоимости, multi-tenancy изоляция. Обновления следуют графику deprecation Kubernetes (один minor каждые 4 месяца); node maintenance использует cordon + drain; backups через Velero или CSI snapshots. DR требует регулярных тренировок — не только документации.

Когда применять

Установите Velero для бэкапов практики до того, как кластер станет критичным для выручки. Запланируйте первую DR-тренировку в течение 30 дней после go-live; задокументируйте процедуру обновления до того, как первая версия станет EOL; настройте cost-дашборды (Kubecost, OpenCost) до того, как счёт станет сюрпризом. Operations-долг копится тихо — гасите его по каденции, не в режиме паники.

Типичные ошибки

Ловушки cluster operations: пропуск minor-обновлений до принуждения (3+ версий позади = кошмар обновления); cluster-wide cluster-admin tokens, которые никто не ротирует; нет задокументированного runbook на случай "control plane умер" (реальная возможность на self-managed кластерах); cost-сюрпризы (idle GPU-ноды, over-provisioned requests, orphan PVCs). Тренируйте incident response на non-production кластере ежемесячно.

Как это работает

Когда применять

Типичные ошибки

Связанные понятия

Полезные ресурсы