RLHF

Реинфорсмент Лернинг фром Хуман Фидбэк (RLHF) представляет собой метод, который позволяет обучить предобученную модель соответствовать человеческим предпочтениям через три ключевых этапа: supervised fine-tuning на демонстрациях, обучение reward-модели на парных предпочтениях, и оптимизацию политики против этой награды (обычно используя алгоритм PPO) с KL-штрафом, который удерживает политику близкой к модели, обученной с помощью supervised fine-tuning. Именно этот метод превратил сырой GPT в ChatGPT. RLHF является дорогостоящим и нестабильным процессом, и современные альтернативы, такие как DPO, сворачивают процесс обучения награды и реинфорсмент лернинга в одну supervised-задачу, что делает их стандартом для многих команд.

Как это работает

RLHF — это практика обучения больших языковых моделей (LLM) выполнять человеческие намерения и избегать вреда. Существуют различные методы RLHF, включая обучение reward-модели из сравнений, оптимизацию LLM против этой награды (обычно с использованием алгоритма PPO), а также использование AI-feedback вместо человеческого (RLAIF), что является более дешевым и масштабируемым подходом. Другие методы включают прямую оптимизацию предпочтений (DPO) и конституционный ИИ, который обучает модель против явных принципов. Важным аспектом является использование красной команды, оценки способностей и ответственного масштабирования для обеспечения безопасности и устойчивости моделей.

Когда применять

Важно заботиться об alignment модели как product-builder, так как дефолтные настройки моделей часто недостаточны для высокоставочных случаев использования. Для обеспечения безопасности и устойчивости моделей используются слоистые защитные меры, такие как фильтрация входных данных (чтобы избежать PII или секретной информации), фильтрация выходных данных (чтобы предотвратить токсичность или попытки jailbreak), отказ от опасных запросов, а также человеческий обзор для выходных данных, которые могут затрагивать людей. Для получения дополнительной информации рекомендуется изучить документацию о политиках ответственного масштабирования от Anthropic и системных карточек от OpenAI.

Типичные ошибки

Основные ловушки при использовании RLHF включают полагание только на встроенные отказы как единственный слой безопасности, что делает модели уязвимыми для jailbreak-атак. Также важно не игнорировать failure modes, специфичных для конкретного домена, таких как финансовые советы, медицинские рекомендации или юридические вопросы. Еще одна распространенная ошибка — мысль, что процесс alignment "сделан", когда на самом деле это непрерывный процесс, который следует поддерживать по мере эволюции способностей моделей и изменений в use cases. Наконец, опасность заключается в развертывании агентов с автономией, выходящей за пределы вашего мониторинга, что может привести к непредсказуемым последствиям.

Как это работает

Когда применять

Типичные ошибки

Связанные понятия

Полезные ресурсы