Регуляризация

Тема дорожной карты · Основы машинного обучения

Регуляризация представляет собой метод, который добавляет штраф к функции потерь модели, чтобы ограничить сложность модели и снизить вероятность переобучения. Это особенно важно в задачах машинного обучения, где модель может слишком хорошо адаптироваться к тренировочным данным, что приводит к ухудшению её производительности на новых данных. Важность регуляризации заключается в том, что она помогает найти баланс между сложностью модели и её способностью к обобщению.

Как это работает

Регуляризация добавляет штраф к функции потерь модели, чтобы ограничить сложность модели и снизить вероятность переобучения. L1 (Lasso) регуляризация штрафует сумму абсолютных весов, что приводит к сжатию модели и выбору наиболее значимых признаков. L2 (Ridge) регуляризация штрафует сумму квадратов весов, что приводит к сглаживанию весов и снижению их разброса. ElasticNet комбинирует оба метода, позволяя модели использовать преимущества как L1, так и L2 регуляризации. Сила регуляризации задаётся гиперпараметром alpha, который подбирается с помощью кросс-валидации.

Когда применять

Регуляризация особенно полезна при работе с линейными моделями, особенно когда данные содержат множество признаков. L1 (Lasso) регуляризация может быть использована для встроенного отбора признаков, когда модель автоматически обнуляет веса для менее значимых признаков. L2 (Ridge) регуляризация используется для стабилизации модели, когда веса сглаживаются, что помогает предотвратить переобучение. ElasticNet комбинирует оба метода, позволяя модели использовать преимущества L1 и L2 регуляризации одновременно. Сила регуляризации (гиперпараметр alpha или C = 1/alpha в SVM/логистической регрессии) тюнится через кросс-валидацию. Перед обучением штрафных линейных моделей всегда стандартизируйте признаки, чтобы штраф применялся к коэффициентам сопоставимо.

Типичные ошибки

Типичными ошибками при использовании регуляризации являются применение L1 или L2 на нестандартизированных признаках, что приводит к неравномерному штрафу для признаков с высокими значениями. Также ошибкой является пере-регуляризация, что приводит к высокому смещению модели и её плохому фитированию к данным. Не использование кросс-валидации для настройки силы регуляризации (гиперпараметр alpha) может привести к случайным и шумным результатам. Раннее прекращение (early stopping) с шумным validation set может привести к случайной остановке обучения модели.

Связанные понятия

Полезные ресурсы