Обрезка

Тема дорожной карты · Глубокое обучение

Обрезка, или прунинг, является важным методом оптимизации модели после обучения, который позволяет уменьшить её размер и ускорить процесс инференса, сохраняя при этом минимальную потерю точности. Этот метод особенно полезен для моделей, которые используются на устройствах с ограниченными ресурсами, таких как мобильные устройства или устройства Интернета вещей (IoT).

Как это работает

Обрезка включает в себя различные техники сжатия и ускорения моделей для их эффективного применения без значительной потери качества. Квантизация, например, конвертирует FP32-веса в INT8 или INT4, что позволяет значительно уменьшить размер модели и ускорить её выполнение на поддерживаемом аппаратном обеспечении. Структурированный прунинг удаляет целые каналы или головы внимания, что позволяет сохранить плотную структуру модели, которая быстрее выполняется на графических процессорах (GPU).

Когда применять

Обрезка особенно полезна для моделей, которые используются на устройствах с ограниченными ресурсами. Например, квантизация FP32-весов в INT8 может быть выполнена практически бесплатно, в то время как квантизация в INT4 (AWQ/GPTQ) может привести к потере точности менее 2%, но при этом сокращает потребление VRAM в четыре раза. Дистилляция знаний особенно полезна при жестких ограничениях по времени выполнения и наличии большого количества неотмеченных данных для обучения модели-преподавателя.

Типичные ошибки

Типичные ошибки при использовании обрезки включают агрессивное применение квантизации в INT4 на маленьких моделях, что может привести к катастрофическому падению точности. Также нередко возникает ошибка при использовании неструктурированного прунинга с ожиданиями ускорения на GPU, что приводит лишь к экономии памяти. Конверсия в формат ONNX может ломать пользовательские операции, поэтому важно тщательно тестировать модель после конвертации. Дистилляция знаний без достаточного количества данных для модели-преподавателя может привести к тому, что модель-ученик не сможет достичь желаемой точности.

Связанные понятия

Полезные ресурсы