Лимиты и квоты

Как платформа ограничивает использование моделей через policy rules: бюджеты, доступ к моделям, контент-ограничения и rate limits.

Кому подходит

Финансам — контроль расходов.
Администраторам — настройка guardrails на разных client tiers.
Разработчикам — понимание, почему запрос может быть отклонён.

Что ограничивается через Policy Rules

Механизм	Уровень	Описание
Budget	`api_key` / `system` / `member` / `virtual_group` / `organization`	Лимиты в ₽ с периодом `daily` / `weekly` / `monthly`
Access	те же client tiers + глобальные правила	Allow/deny моделей и провайдеров (allowlist — пересечение правил)
Content	организация, группы, участники, системы и ключи	PII, категории, prompt-injection, custom regex
Rate limit	обычно `api_key` или `system`	Ограничения RPM/TPM
Статус ключа	API-ключ	Ключ со статусом `revoked` не принимается

Суммы budget-модулей — в рублях (₽). Подробнее о назначении и объединении правил: Policy Rules (Guardrails).

Бюджеты: независимые счётчики

Каждое правило с модулем budget создаёт отдельную проверку. Счётчик привязан к clientSubject правила (организация, участник, ключ и т.д.), а не к «общему пулу» guardrail.

На одном запросе проверяются все применимые бюджеты. Исчерпание любого из них даёт отказ, даже если другие ещё не достигнуты.

Типичные сценарии:

Лимит на ключ — ключ не может потратить больше N ₽ за период.
Лимит на участника — сумма расходов по всем ключам участника не может превысить N ₽.
Наслоение — и ключ, и участник, и организация могут иметь свои правила; срабатывает наименьший оставшийся запас.

Примеры с цифрами — в разделе Иерархия и объединение в Policy Rules.

Что происходит при превышении

Причина	Код	Когда
Бюджет	`403`	Любой применимый budget-лимит исчерпан
Access (модель/провайдер)	`403`	Модель не в пересечении allowlist или в deny
Content (`block`)	`403`	PII, категория, injection или custom pattern
Rate limit	`429`	Превышен RPM/TPM

Рекомендации:

следите за разделом Биллинг в кабинете;
задайте отдельные policy rules для тестовых ключей/систем;
отзовите неиспользуемые ключи.

Запросы в минуту (RPM) и токены в минуту (TPM)

RPM/TPM задаются модулем rateLimit в policy rules. Gateway применяет sliding window на уровне API-ключа:

RPM — проверяется до вызова модели; при превышении — 429 Too Many Requests и pipeline stage rate_limit.
TPM — до вызова модели оценивается размер промпта; после успешного ответа в окно записываются фактические prompt + completion tokens.

Для работы счётчиков нужен Redis (REDIS_URL в окружении gateway).

При нескольких правилах с rateLimit применяется наиболее строгий лимит.

Отличие от «rate limit» провайдера

Поставщики моделей (OpenAI, Anthropic и др.) могут иметь свои лимиты RPM/TPM. Ошибки вида 429 Too Many Requests иногда связаны с провайдером, а не с бюджетом LLM Router. См. Решение проблем.