Подсчет и цена токенов

Тема дорожной карты · Claude от Anthropic

Подсчет и цена токенов — это важный инструмент для управления расходами и оптимизации использования API Claude. С помощью Token Counting API вы можете измерить размер промпта до отправки платного запроса messages.create, что позволяет избежать неожиданных переплат или ошибок из-за превышения размера контекстного окна. Этот API особенно полезен для разработчиков, которые стремятся оптимизировать свои запросы и управлять затратами на основе размера токенов.

Как это работает

Token Counting API является частью Messages API, который реализован как REST/JSON сервис. Для корректной работы API необходимо указать несколько обязательных параметров: model, max_tokens и массив messages, который содержит чередующиеся сообщения от пользователя и ассистента. Опциональные параметры включают system (системный промпт), tools (определения функций), temperature (уровень детерминированности, где 0 означает детерминированное поведение, а 1 — креативное), top_p, и stop_sequences.

Для получения потокового ответа используется параметр stream: true с SSE (Server-Sent Events). Аутентификация осуществляется с помощью заголовка Authorization: Bearer <API_KEY> и специального заголовка anthropic-version. Для удобства разработки существуют SDK на различных языках, таких как Python, TypeScript, Java и Go.

Когда применять

SDK предпочтительнее использования сырых HTTP запросов, так как они автоматически обрабатывают повторные попытки, ограничения скорости, потоковые ответы и ошибки. Важно всегда явно указывать параметр max_tokens и не полагаться на значения по умолчанию. Потоковые ответы можно использовать для отображения прогресса пользователю, в то время как полный вывод можно собирать серверной стороной для логирования.

Для управления ошибками следует использовать экспоненциальное затухание при получении ошибок 429 (ограничение по скорости) или 5xx (серверные ошибки). Кеширование промптов, которые не изменяются между запросами (например, системный промпт и несколько примеров), может значительно снизить стоимость запросов на 90% и более.

Типичные ошибки

Типичные ошибки при использовании Token Counting API включают необработанные ошибки 429 (ограничение по скорости), утечку API-ключа в клиентском JavaScript (всегда следует проксировать запросы через серверную сторону), игнорирование поля usage в ответе (что приводит к невидимости стоимости вызова), а также использование слишком больших значений max_tokens "на всякий случай" (что может привести к замедлению и увеличению стоимости запросов).

Связанные понятия

Полезные ресурсы

Проверить знания (1)

Загрузка вопросов…