Оценка LLM
Тема дорожной карты · Большие языковые модели (LLM)
Оценка больших языковых моделей (LLM) представляет собой процесс проверки и сравнения их способностей, где используются как стандартные бенчмарки, так и специфические для задачи оценки. Этот процесс позволяет оценить корректность, верность, безопасность, латентность и стоимость модели. Оценка является версионируемым артефактом, где промпт, датасет, графер и рубрика меняются вместе и тестируются в процессе непрерывной интеграции (CI).
Как это работает
Оценка LLM включает в себя три основных уровня: использование стандартных бенчмарков, таких как MMLU, GSM8K, HumanEval, BBH, MATH, GPQA, для сравнения способностей моделей; выполнение задачно-специфических оффлайн-оценок на замороженном «золотом» наборе данных с детерминированными граферами и LLM-as-judge; а также проведение онлайн-оценок на основе продакшен-трейсов (feedback пользователей, A/B-тесты, регрессионные диффы). Эти оценки покрывают различные аспекты, включая корректность, верность для RAG, безопасность, латентность и стоимость.
Типы оценок включают ground-truth (существуют правильные ответы, которые используются для расчета accuracy, F1, BLEU, ROUGE), LLM-as-judge (сильная модель оценивает output по критериям, что дешево и масштабируется), human evaluation (золотой стандарт, но дорого), pairwise preference, а также онлайн-метрики (A/B-тест conversion, task completion). Инструменты для проведения этих оценок включают OpenAI Evals, Promptfoo, LangSmith, Inspect AI и кастомные harness.
Когда применять
Строить оценки следует с самого начала разработки системы, так как они помогают превратить «ощущения» в измеримые параметры. Начните с 50-200 hand-curated примеров, которые покрывают поверхность задачи (happy path, edge cases, adversarial). Используйте LLM-as-judge для быстрой итерации; периодически проводите оценки с участием человека для валидации. Трекайте регрессию (изменение промпта не должно тихо ухудшать существующие кейсы). Пиньте результаты оценки к версиям модели и промпта для возможности проведения A/B-дебага.
Типичные ошибки
Типичные ошибки при оценке LLM включают использование BLEU/ROUGE как основного критерия качества (они слабо коррелируют с человеческим суждением), LLM-judge, который может быть предвзят к многословным ответам (pairwise вместо absolute), eval-сет, который не отражает production-распределение (lab-good, prod-bad), а также отсутствие автоматического CI на изменения промптов (регрессии могут ускользать незаметно).