Spot / Предemptible Instances
Тема дорожной карты · MLOps
Spot instances (AWS) и preemptible VMs (GCP) предоставляют незадействованные мощности облака со скидкой 60–90% по сравнению с on-demand ценами, что делает их идеальными для отказоустойчивых задач обучения ML. Компромисс — облако может прервать инстанс с коротким уведомлением (2 минуты на AWS, 30 секунд на GCP), поэтому код обучения должен периодически сохранять checkpoint и возобновляться с последней точки после перезапуска. Фреймворки PyTorch Lightning, Hugging Face Accelerate и SageMaker Managed Spot Training автоматически управляют чекпоинтингом и восстановлением после прерывания.
Как это работает
Spot / Предemptible Instances: spot/preemptible инстансы (60-90% дешевле, должны handle прерывание) для training; autoscaling (KEDA, Karpenter, cluster autoscaler) для serving — платите за использование; model optimisation (quantisation, distillation) режет GPU-bills напрямую; resource planning — right-size выбор GPU (H100 только когда нужна; A10G/L4 ок для inference); batch scheduling для несрочных job. Трекайте cost-per-prediction + cost-per-training-run — видимость per team, иначе spend тихо растёт.
Когда применять
Используйте spot для любого training дольше часа — checkpointing каждые N минут чтобы пережить preemption. Quantise inference-модели рано — Q8 практически бесплатно по качеству. FinOps-дашборды (cost per model, per request, per team) — видимость ведёт behaviour. Right-size GPU агрессивно — большинство inference не нуждается во flagships.
Типичные ошибки
Ловушки Spot / Предemptible Instances: training многочасовой job на on-demand, когда spot + checkpointing работает; резервируют H100 для inference, помещающегося на L4 (10x разница цены); нет cost monitoring (один runaway notebook съедает месячный бюджет за ночь); игнор egress + storage costs (data movement — тихий cost killer).