LLM Router
Концепции

Лимиты и квоты

Как платформа ограничивает использование моделей через policy rules: бюджеты, доступ к моделям, контент-ограничения и rate limits.

Кому подходит

  • Финансам — контроль расходов.
  • Администраторам — настройка guardrails на разных client tiers.
  • Разработчикам — понимание, почему запрос может быть отклонён.

Что ограничивается через Policy Rules

МеханизмУровеньОписание
Budgetapi_key / system / member / virtual_group / organizationЛимиты в ₽ с периодом daily / weekly / monthly
Accessте же client tiers + глобальные правилаAllow/deny моделей и провайдеров (allowlist — пересечение правил)
Contentорганизация, группы, участники, системы и ключиPII, категории, prompt-injection, custom regex
Rate limitобычно api_key или systemОграничения RPM/TPM
Статус ключаAPI-ключКлюч со статусом revoked не принимается

Суммы budget-модулей — в рублях (₽). Подробнее о назначении и объединении правил: Policy Rules (Guardrails).

Бюджеты: независимые счётчики

Каждое правило с модулем budget создаёт отдельную проверку. Счётчик привязан к clientSubject правила (организация, участник, ключ и т.д.), а не к «общему пулу» guardrail.

На одном запросе проверяются все применимые бюджеты. Исчерпание любого из них даёт отказ, даже если другие ещё не достигнуты.

Типичные сценарии:

  1. Лимит на ключ — ключ не может потратить больше N ₽ за период.
  2. Лимит на участника — сумма расходов по всем ключам участника не может превысить N ₽.
  3. Наслоение — и ключ, и участник, и организация могут иметь свои правила; срабатывает наименьший оставшийся запас.

Примеры с цифрами — в разделе Иерархия и объединение в Policy Rules.

Что происходит при превышении

ПричинаКодКогда
Бюджет403Любой применимый budget-лимит исчерпан
Access (модель/провайдер)403Модель не в пересечении allowlist или в deny
Content (block)403PII, категория, injection или custom pattern
Rate limit429Превышен RPM/TPM

Рекомендации:

  • следите за разделом Биллинг в кабинете;
  • задайте отдельные policy rules для тестовых ключей/систем;
  • отзовите неиспользуемые ключи.

Запросы в минуту (RPM) и токены в минуту (TPM)

RPM/TPM задаются модулем rateLimit в policy rules. Gateway применяет sliding window на уровне API-ключа:

  • RPM — проверяется до вызова модели; при превышении — 429 Too Many Requests и pipeline stage rate_limit.
  • TPM — до вызова модели оценивается размер промпта; после успешного ответа в окно записываются фактические prompt + completion tokens.

Для работы счётчиков нужен Redis (REDIS_URL в окружении gateway).

При нескольких правилах с rateLimit применяется наиболее строгий лимит.

Отличие от «rate limit» провайдера

Поставщики моделей (OpenAI, Anthropic и др.) могут иметь свои лимиты RPM/TPM. Ошибки вида 429 Too Many Requests иногда связаны с провайдером, а не с бюджетом LLM Router. См. Решение проблем.

Что дальше

На этой странице