Выбор подходящей модели

Выбор модели — это многокритериальный компромисс: качество на вашей конкретной задаче (запускайте свой эвал, не верьте лидербордам), размер контекстного окна, латентность и tokens/s, стоимость на 1M токенов, режим деплоя (API или self-hosted), лицензия, поддержка возможностей (vision, tool calling, structured output, кэширование). Стартуйте с фронтир-API (GPT-4-класс, Claude Sonnet, Gemini Pro), чтобы зафиксировать потолок качества, потом спускайтесь к mini/haiku/flash или к open-weight Llama/Qwen, когда эвал-сет стабилизируется.

Как это работает

Выбор подходящей модели: проприетарные frontier — Claude (Anthropic), GPT-4/5 (OpenAI), Gemini (Google), DeepSeek. Open-weight сильные — Llama 4 (Meta), Qwen 3 (Alibaba), DeepSeek V3, Mistral. Российские: GigaChat (Sber), YandexGPT (Yandex). Для деплоев на RF-инфре RF-resident модели обязательны по локальному compliance — выбирайте GigaChat или YandexGPT. Для local/on-prem — Llama, Qwen, DeepSeek на commodity GPU через Ollama / vLLM / llama.cpp.

Когда применять

Для РФ-проектов (по Hard Rule #4) — GigaChat / YandexGPT. Для US/EU/global выбирайте по задаче + бюджету — Sonnet/GPT-4 для качества, Haiku/GPT-4 mini для цены. Для on-prem (compliance, data sovereignty) Llama 4 70B / Qwen 3 / DeepSeek работают на 1-2 A100/H100 GPU. Бенчмаркьте на своей задаче — Chatbot Arena и MMLU шумные; ваши task-evals бьют оба.

Типичные ошибки

Ловушки Выбор подходящей модели: выбор по Twitter-хайпу без бенчмарка (модель X "ощущается умной" на demo-промптах, падает на реальной нагрузке); локирование в одного провайдера через SDK-специфичные фичи (OpenAI-совместимые API где возможно); не трекают deprecations моделей (старые версии sunset → ваш prod ломается).

Как это работает

Когда применять

Типичные ошибки

Связанные понятия

Полезные ресурсы