Свежесть признаков
Тема дорожной карты · MLOps
Свежесть признаков — это метрика, измеряющая время, прошедшее с момента обновления значений признаков, которые подаются в модель в момент inference. Устаревшие признаки снижают качество предсказаний модели: например, признак «последняя покупка», вычисленный вчера, бесполезен для модели обнаружения фрода в реальном времени. Следовательно, поддержание свежести признаков является критически важным аспектом для обеспечения точности моделей машинного обучения.
SLA свежести задаются на уровне feature store: каждая группа признаков имеет параметр max_age, который определяет максимально допустимый возраст значений признаков. Pipeline ingestion публикует метрики свежести, а алертинг срабатывает при превышении TTL. Online store (Redis, Cassandra) минимизирует задержку; offline store (Parquet, Delta) допускает бо́льшую задержку, но должен обновляться по расписанию во избежание training-serving skew.
Как это работает
Свежесть признаков (Feast, Tecton, Hopsworks, SageMaker Feature Store) централизуют фичи, потребляемые моделями: offline (batch training) + online (low-latency serving) хранилище с consistent определениями + трансформациями между ними. Это помогает решать проблему train-serve skew (та же фича считается идентично при training + inference), обеспечивает актуальность признаков (online фичи отстают от источника), а также позволяет переиспользовать признаки между командами. Современные store добавляют point-in-time correctness (без утечки будущего), feature monitoring, lineage.
Когда применять
Feature store overkill ниже ~5 production-моделей или 1 команды — Pandas + DBT покрывают всё. Адоптируйте когда: (а) train-serve skew баги кусают, (б) много команд переиспользуют фичи, (в) point-in-time correctness на time-series joins нужна. Feast — open-source дефолт; managed Tecton/SageMaker для hands-off ops.
Типичные ошибки
Ловушки Свежесть признаков: feature store до появления фичей, достойных шеринга (преждевременная платформа); online + offline transforms расходятся (skew баги); feature-store как SQL-bypass утекает PII (governance должен включать фичи); недостаточные инвестиции в feature freshness monitoring (тихая staleness).