Расписание скорости обучения

Learning-rate schedule меняет learning rate по ходу обучения, чтобы совместить быстрый прогресс на старте и точную сходимость в конце. Распространённые шаблоны — step decay, exponential decay, cosine annealing, one-cycle и reduce-on-plateau, почти всегда с коротким линейным warmup в начале. Современные рецепты для transformers сочетают warmup с cosine или inverse-square-root decay, а в computer vision часто применяют one-cycle с super-convergence. Правильное расписание зависит от архитектуры, batch size и общего бюджета вычислений.

Как это работает

Расписание скорости обучения — toolkit практика за пределами basic SGD: transfer learning (старт с pretrained модели, fine-tune под задачу — single highest-leverage трюк), data augmentation (синтетически расширить training set), learning rate scheduling (cosine, warmup-then-decay), gradient clipping (cap norm для предотвращения взрывов), regularisation (weight decay, label smoothing, MixUp). Вместе превращают "модель не обучается" в "модель надёжно обучается".

Когда применять

Transfer learning первым — pretrained веса экономят недели compute + бьют from-scratch если у вас не ImageNet-масштаб. Аугментация агрессивно при training set < 100k. Warmup (~5% шагов) перед любым LR schedule — спасает от gradient explosion рано. Clip gradients на Transformer + RNN (norm 1.0 дефолт). Sweep weight decay (0, 1e-4, 1e-2) — оптимум сильно варьируется.

Типичные ошибки

Ловушки Расписание скорости обучения: обучение с нуля, когда pretrained работает (compute впустую); агрессивная аугментация, разрушающая label-семантику (вращение MNIST 6 → 9); LR schedule без warmup (gradient explosion в первые 100 шагов); weight decay на bias + norm-параметры (AdamW-style decoupled decay).

Как это работает

Когда применять

Типичные ошибки

Связанные понятия

Полезные ресурсы