Регистр моделей MLflow
Тема дорожной карты · MLOps
Регистр моделей MLflow — это централизованное хранилище обученных моделей, которое обеспечивает управление жизненным циклом моделей, включая версионирование, переходы между стадиями (Staging → Production → Archived) и контролируемые аннотации. Каждая версия зарегистрированной модели ссылается на исходный run, сохраняя полный lineage (данные, код, параметры). Это позволяет отслеживать происхождение модели и ее изменения на каждом этапе ее жизни. Команды блокируют promotion через webhooks валидации или CI-задачи с evaluation suite перед переходом стадий. Это гарантирует, что только модели, прошедшие все необходимые проверки, попадают в production.
Registry MLflow предоставляет REST API и Python-клиент (MlflowClient) для интеграции с CI/CD pipeline. Команды mlflow models serve или mlflow deployments загружают production-версию напрямую для локального тестирования или serving на managed инфраструктуре. Такое управление позволяет автоматизировать и контролировать процесс развертывания моделей, обеспечивая стабильность и надежность.
Как это работает
Регистр моделей MLflow — это система учета для обученных моделей, которая отслеживает, какой артефакт, какая версия, какие метрики, кто обучал, какой код/данные были использованы, какая стадия (dev/staging/prod) и кто утвердил переход на следующую стадию. MLflow Registry, Weights & Biases Artifacts, SageMaker Model Registry — это популярные инструменты для управления моделями. Registry предоставляет функции управления (governance): возможность отката, аудита, A/B-сравнений и использование model cards. Без использования Registry невозможно ответить на базовый вопрос для управления инцидентами: "Какая модель сейчас обслуживает запросы?"
Когда применять
Registry следует настроить, когда в production используется более одной модели. Ручное отслеживание артефактов быстро становится неконтролируемым. Модели следует тэгировать по training-run ID, чтобы обеспечить возможность сверки и анализа. Требуйте метрических порогов для перехода в стадии staging/prod, чтобы автоматизировать процесс и не полагаться на "чувства" команды. Храните последние N production-promoted моделей для возможности мгновенного отката.
Типичные ошибки
Типичные ошибки при использовании Registry MLflow включают развертывание модели без использования Registry (что делает откат невозможным), использование filesystem-пути как "версии" (что не позволяет отслеживать метаданные), переход на стадию staging/prod по метрикам обучения вместо holdout (что приводит к перенастройке модели), и переход на стадию без автоматических проверок (что делает процесс утверждения случайным и неструктурированным).