Человеческая оценка

Тема дорожной карты · Большие языковые модели (LLM)

Человеческая оценка остается золотым стандартом для оценки качества больших языковых моделей (LLM) на открытых задачах, где автоматические метрики, такие как BLEU или ROUGE, не всегда способны адекватно измерить качество ответа. Эта методика особенно полезна для оценки таких аспектов, как полезность, честность и безвредность ответов. Человеческая оценка также позволяет учитывать эмоциональную и социальную контекстуальность, что особенно важно для задач, связанных с общением.

Как это работает

Человеческая оценка представляет собой методика, используемая для измерения качества LLM-powered систем. Существуют различные типы оценок: ground-truth (где есть правильные ответы, и можно измерять accuracy, F1, BLEU или ROUGE), LLM-as-judge (где сильная модель оценивает output по определенным критериям, что является более дешевым и масштабируемым способом), human eval (золотой стандарт, но более дорогой), pairwise preference (попарное сравнение), online-метрики (такие как A/B-тест conversion или task completion). Для проведения оценок используются различные инструменты, включая OpenAI Evals, Promptfoo, LangSmith, Inspect AI и кастомные harnessы. Строить eval-сет нужно до релиза; итерировать промпты против него позволяет улучшить качество модели.

Когда применять

Строить eval нужно с самого начала разработки системы, чтобы превратить "vibes" в измеримые показатели. Начинать следует с 50-200 hand-curated примеров, которые покрывают различные аспекты задачи (happy path, edge cases, adversarial). LLM-as-judge можно использовать для быстрой итерации; однако, периодически необходимо проводить человеческую оценку для валидации результатов. Трекать регрессии (изменение промпта не должно тихо ухудшать существующие кейсы) также важно. Пинить eval-результаты к версиям модели и промпта позволяет проводить A/B-дебаг.

Типичные ошибки

В процессе проведения человеческой оценки могут возникнуть различные ловушки. Например, использование BLEU или ROUGE как меры качества может быть недостаточным, так как эти метрики слабо коррелируют с человеческим суждением. Также LLM-judge может быть предвзятым к многословным ответам, что делает попарное сравнение более предпочтительным. Кроме того, eval-сет может не отражать production-распределение, что может привести к ситуации, когда модель хорошо работает в лабораторных условиях, но плохо в производственной среде. Наконец, отсутствие автоматического CI на изменения промптов может привести к незаметным регрессиям.

Связанные понятия

Полезные ресурсы