DPO (Прямая оптимизация предпочтений)

Прямая оптимизация предпочтений (DPO) — это метод, используемый для улучшения качества работы больших языковых моделей (LLM) путём прямого учёта предпочтений пользователей. Этот подход важен для обеспечения того, чтобы модели адаптировались к конкретным требованиям и предпочтениям, что особенно важно в высокорисковых сценариях использования.

Как это работает

DPO представляет собой практику, которая позволяет LLM обучаться выполнять намерения человека и избегать вреда. Методы, используемые для этого, включают в себя RLHF (Reinforcement Learning from Human Feedback), где модель обучается на основе сравнений, сделанных людьми, и RLAIF (Reinforcement Learning from AI Feedback), где модель обучается на основе обратной связи от других моделей. В отличие от этих методов, DPO предполагает более простую оптимизацию предпочтений, которая может быть выполнена без необходимости в обучении дополнительной наградной модели.

Кроме того, DPO может быть использован в сочетании с конституционным ИИ, где модель обучается против явных принципов, таких как запрет на причинение вреда. Этот метод также включает в себя использование красной команды (red-teaming), оценки способностей и разработку политики ответственного масштабирования.

Когда применять

DPO особенно полезен, когда вы хотите улучшить выравнивание (alignment) модели с человеческими ценностями и намерениями. Это особенно важно для разработчиков продуктов, которые стремятся обеспечить, чтобы дефолтные модели были адекватными для высокорисковых сценариев использования. Слоистая защита, включающая в себя фильтрацию входных данных (чтобы избежать PII или секретной информации), фильтрацию выходных данных (чтобы предотвратить токсичность или попытки разблокировки), отказ от опасных запросов, а также человеческий контроль за выводами, которые могут затрагивать людей, является ключевым элементом этого подхода.

Типичные ошибки

Типичные ошибки при использовании DPO включают в себя полагание только на встроенные отказы как единственную защиту от разблокировки, игнорирование failure modes, специфичных для конкретного домена (например, советы по финансовому планированию, медицинские рекомендации, юридические консультации), а также мысль, что выравнивание "сделано" — это непрерывный процесс, который должен быть поддерживаемым по мере эволюции способностей моделей и изменений в сценариях использования. Деплой агентов с автономией, выходящей за пределы вашего мониторинга, также является серьезной ошибкой, так как это может привести к непредсказуемым последствиям.

Как это работает

Когда применять

Типичные ошибки

Связанные понятия

Полезные ресурсы