Тuning гиперпараметров

Тема дорожной карты · Основы машинного обучения

Настройка гиперпараметров представляет собой процесс поиска оптимальной конфигурации параметров модели, которые не обучаются на основе данных, но существенно влияют на качество модели. Это важный этап в процессе создания и улучшения моделей машинного обучения. Настройка гиперпараметров помогает максимизировать валидационную метрику, что в свою очередь улучшает производительность модели на новых данных.

Как это работает

Настройка гиперпараметров заключается в поиске наилучшей необучаемой конфигурации, которая определяет поведение модели. Это могут быть параметры, такие как скорость обучения (learning rate), сила регуляризации (regularisation strength), глубина дерева (tree depth) и другие. Процесс настройки гиперпараметров обычно включает в себя несколько методов, таких как сеточный поиск (grid search), случайный поиск (random search), байесовская оптимизация (Bayesian optimisation) и эволюционные методы.

Сеточный поиск — это метод, который проверяет все возможные комбинации гиперпараметров в заданном диапазоне. Это методически точный, но может быть очень расточительным и медленным, особенно в высоких измерениях. Случайный поиск, напротив, выбирает случайные комбинации гиперпараметров, что делает его более эффективным в высоких измерениях. Байесовская оптимизация использует статистические модели для предсказания оптимальных значений гиперпараметров, что делает её особенно полезной для дорогих моделей. Автоматизированное машинное обучение (AutoML) оборачивает все эти методы в единую систему, автоматически настраивая гиперпараметры.

Когда применять

Сеточный поиск становится менее эффективным с увеличением количества гиперпараметров; случайный поиск становится предпочтительным выше ~3 гиперпараметров. Байесовская оптимизация (Optuna) является наилучшим выбором, когда каждый trial дорогой. Всегда следует настраивать гиперпараметры через кросс-валидацию внутри каждого trial, чтобы избежать переобучения гиперпараметров к валидационным данным. Установите бюджет времени или затрат на каждый trial заранее, так как эти процедуры могут потреблять бесконечный вычислительный ресурс.

Типичные ошибки

Основные ошибки при настройке гиперпараметров включают сеточный поиск по 6 или более гиперпараметрам, что приводит к экспоненциальному взрыву числа комбинаций. Другой распространенный ловушкой является настройка гиперпараметров на основе валидационных данных, а затем использование этих же данных для отчета о качестве модели, что приводит к переобучению. Неправильное фиксирование случайных чисел (RNG) также может вызвать проблемы, так как это приводит к изменчивым результатам, которые трудно сравнивать. Использование автоматизированного машинного обучения (AutoML) без понимания того, что он делает, может привести к получению чёрного ящика решения без инсайта.

Связанные понятия

Полезные ресурсы