Документация API

Правила цен

Токены, учет кэша, картинки и наценка за большой контекст.

AIGate считает стоимость по каждому запросу. Текстовые модели обычно разделяют входные токены, выходные токены, чтение кэша и запись кэша. Картинки могут стоить фиксированную сумму за запрос или изображение.

Поля токенов

Поле	Что значит
Входные токены	Текст запроса без частей, которые отдельно учитываются как кэш или картинка.
Выходные токены	Текст, сгенерированный моделью.
Чтение кэша	Токены промпта, прочитанные из кэша провайдера.
Запись кэша	Токены, записанные в кэш провайдера. Для разных сроков хранения ставка может отличаться.
Картинки	Токены картинки или цена вызова генерации, если модель возвращает такие данные.

Наценка за большой контекст

Порог считается по полному входному контекстуПорог смотрит на общий размер входного контекста до скидки за кэш. Токены, прочитанные из кэша, тоже входят в этот размер.

Семейство	Порог	Вход	Выход	Кэш
OpenAI models	272 000 токенов и выше	x2	x1.5	x2
Google Pro models	200 000 токенов и выше	x2	x1.5	x2
Grok models	Выше 200 000 токенов	x2	x2	x2

Например, если у запроса Google Pro 210 000 токенов входного контекста, вход и кэш считаются по цене большого контекста, а выход - по повышенной цене выхода.

Тиры Google Gemini

Для поддерживаемых текстовых моделей Google Gemini в каталоге могут быть Flex, Default и Priority. Flex дешевле, но может отвечать дольше. Priority дороже и нужен, когда важна скорость. Тир выбирается суффиксом model id, а не дополнительным полем в теле запроса.

Model id	Множитель цены
google/gemini-3.1-pro-preview:flex	0.5x
google/gemini-3.1-pro-preview	1x
google/gemini-3.1-pro-preview:priority	2x

Не для картинокЦены по тирам применяются только к поддерживаемым текстовым моделям Google Gemini. Модели Gemini для картинок и Gemma остаются на обычной цене.

Процент попаданий в кэш

Процент попаданий в кэш считается как прочитанные из кэша токены, деленные на сумму обычных входных токенов и прочитанных из кэша токенов. Запись кэша показывается отдельно, потому что это не попадание.

txt

cache_hit_percent = cache_read_tokens / (input_tokens + cache_read_tokens) * 100

НазадМоделиДальшеБаланс