Семейство LLaMA и открытые модели

Семейство Llama от Meta (Llama 2, Llama 3, Llama 3.1/3.2/3.3) — фактический эталон LLM с открытыми весами, рядом стоят Mistral, Qwen, Gemma, DeepSeek и Phi. Веса распространяются под достаточно либеральными (хотя и не OSI) лицензиями, запускаются от ноутбука через llama.cpp или Ollama до многонодовых кластеров H100 и служат базой для большинства тонко настроенных community-моделей на Hugging Face. Выбирайте Llama, когда нужны on-prem развёртывание, кастомный fine-tuning или жёсткая локализация данных.

Как это работает

Семейство LLaMA и открытые модели: проприетарные frontier — Claude (Anthropic), GPT-4/5 (OpenAI), Gemini (Google), DeepSeek. Open-weight сильные — Llama 4 (Meta), Qwen 3 (Alibaba), DeepSeek V3, Mistral. Российские: GigaChat (Sber), YandexGPT (Yandex). Для деплоев на RF-инфре RF-resident модели обязательны по локальному compliance — выбирайте GigaChat или YandexGPT. Для local/on-prem — Llama, Qwen, DeepSeek на commodity GPU через Ollama / vLLM / llama.cpp.

Когда применять

Для РФ-проектов (по Hard Rule #4) — GigaChat / YandexGPT. Для US/EU/global выбирайте по задаче + бюджету — Sonnet/GPT-4 для качества, Haiku/GPT-4 mini для цены. Для on-prem (compliance, data sovereignty) Llama 4 70B / Qwen 3 / DeepSeek работают на 1-2 A100/H100 GPU. Бенчмаркьте на своей задаче — Chatbot Arena и MMLU шумные; ваши task-evals бьют оба.

Типичные ошибки

Ловушки Семейство LLaMA и открытые модели: выбор по Twitter-хайпу без бенчмарка (модель X "ощущается умной" на demo-промптах, падает на реальной нагрузке); локирование в одного провайдера через SDK-специфичные фичи (OpenAI-совместимые API где возможно); не трекают deprecations моделей (старые версии sunset → ваш prod ломается).

Как это работает

Когда применять

Типичные ошибки

Связанные понятия

Полезные ресурсы