Кураторство данных

Тема дорожной карты · Большие языковые модели (LLM)

Курация решает, что попадёт в претрейн и fine-tuning, и она влияет на итоговое качество сильнее, чем архитектура. Пайплайны делают фильтрацию по языку и качеству, дедупликацию (точную и near-dup через MinHash/LSH), удаление токсичности и PII, чистку форматов, исключение по лицензиям. Веб требует агрессивных фильтров — Common Crawl в основном мусор. Для fine-tuning меньше и чище лучше, чем больше и грязнее; дедупицируйте против eval-сетов, чтобы избежать contamination. Документируйте каждый фильтр и версионируйте датасеты — на этом держится воспроизводимость и аудит лицензий.

Как это работает

Кураторство данных — (очень дорогая) фаза, где модель учится на массивном корпусе через next-token prediction. Современный frontier pre-training: триллионы токенов, недели на тысячах H100/H200 GPU, миллиарды долларов капитала. Ключевые компоненты: data curation (качество > количество выше порога), tokenization (BPE/SentencePiece), архитектурные выборы (варианты transformer, MoE), training-инфра (distributed на тысячах GPU), checkpointing + recovery, evals во время обучения.

Когда применять

Почти никакие application-команды не делают pre-train с нуля — это домен frontier-лабораторий (Anthropic, OpenAI, Google, Meta, Mistral) и крупных национальных усилий. Компании делают continued pre-training на frontier-базе для доменной адаптации (юридическое, медицинское, финансовое) при реальном distributional shift — редко. Читайте техрепорты (Llama 4, DeepSeek V3, GPT-4) для инсайта; строительство на этих моделях — где случается 99.9% impact.

Типичные ошибки

Ловушки Кураторство данных: мысль, что pre-training — правильный уровень вмешательства для продуктовой команды (почти никогда); недооценка инженерной сложности (data-пайплайны, distributed training, дебаг на масштабе); загрязнённые training-данные (eval-leakage = score выглядят отлично, prod валится).

Связанные понятия

Полезные ресурсы