Наборы тестов

Тема дорожной карты · Большие языковые модели (LLM)

Наборы тестов производительности представляют собой коллекции тестов, используемых для оценки производительности и точности больших языковых моделей (LLMs). Используйте их для сравнения различных моделей и измерения улучшений со временем. Это важный инструмент для разработчиков, который позволяет объективно оценить качество моделей и выявить проблемы, которые могут быть неочевидны при визуальном анализе.

Как это работает

Наборы тестов — это инструмент, который помогает мерить качество LLM-powered систем. Типы оценок включают ground-truth (где есть правильные ответы, и вы можете рассчитать accuracy, F1, BLEU, ROUGE), LLM-as-judge (где сильная модель оценивает выходные данные по определенным критериям, что является дешевым и масштабируемым решением), human eval (золотой стандарт, но дорогостоящий), pairwise preference (сравнение двух вариантов), и online-метрики (как A/B-тесты для конверсии и завершения задач). Инструменты для проведения оценок включают OpenAI Evals, Promptfoo, LangSmith, Inspect AI, а также кастомные harness. Строите eval-сеты до релиза; итерируйте промпты против них, чтобы улучшить качество моделей.

Когда применять

Стройте eval-сеты с самого начала — они превращают "vibes" в измерение. Начните с 50-200 hand-curated примеров, покрывающих поверхность задачи (happy path, edge cases, adversarial). Используйте LLM-as-judge для быстрой итерации; периодически валидируйте результаты human eval. Трекайте регрессии (изменение промпта не должно тихо ухудшать существующие кейсы). Пиньте eval-результаты к версиям модели и промпта — это позволяет проводить A/B-дебаг.

Типичные ошибки

Типичные ловушки при использовании наборов тестов включают использование BLEU и ROUGE как меры качества (они слабо коррелируют с человеческим суждением), LLM-judge, который может быть предвзят к многословным ответам (используйте pairwise оценку вместо абсолютной), eval-сет, который не отражает production-распределение (модели могут хорошо работать в лабораторных условиях, но плохо в реальном мире), и отсутствие автоматического CI на изменения промптов (регрессии могут происходить незаметно).

Связанные понятия

Полезные ресурсы