Лимиты и квоты
Как платформа ограничивает использование моделей через policy rules: бюджеты, доступ к моделям, контент-ограничения и rate limits.
Кому подходит
- Финансам — контроль расходов.
- Администраторам — настройка guardrails на разных client tiers.
- Разработчикам — понимание, почему запрос может быть отклонён.
Что ограничивается через Policy Rules
| Механизм | Уровень | Описание |
|---|---|---|
| Budget | api_key / system / member / virtual_group / organization | Лимиты в ₽ с периодом daily / weekly / monthly |
| Access | те же client tiers + глобальные правила | Allow/deny моделей и провайдеров (allowlist — пересечение правил) |
| Content | организация, группы, участники, системы и ключи | PII, категории, prompt-injection, custom regex |
| Rate limit | обычно api_key или system | Ограничения RPM/TPM |
| Статус ключа | API-ключ | Ключ со статусом revoked не принимается |
Суммы budget-модулей — в рублях (₽). Подробнее о назначении и объединении правил: Policy Rules (Guardrails).
Бюджеты: независимые счётчики
Каждое правило с модулем budget создаёт отдельную проверку. Счётчик привязан к clientSubject правила (организация, участник, ключ и т.д.), а не к «общему пулу» guardrail.
На одном запросе проверяются все применимые бюджеты. Исчерпание любого из них даёт отказ, даже если другие ещё не достигнуты.
Типичные сценарии:
- Лимит на ключ — ключ не может потратить больше N ₽ за период.
- Лимит на участника — сумма расходов по всем ключам участника не может превысить N ₽.
- Наслоение — и ключ, и участник, и организация могут иметь свои правила; срабатывает наименьший оставшийся запас.
Примеры с цифрами — в разделе Иерархия и объединение в Policy Rules.
Что происходит при превышении
| Причина | Код | Когда |
|---|---|---|
| Бюджет | 403 | Любой применимый budget-лимит исчерпан |
| Access (модель/провайдер) | 403 | Модель не в пересечении allowlist или в deny |
Content (block) | 403 | PII, категория, injection или custom pattern |
| Rate limit | 429 | Превышен RPM/TPM |
Рекомендации:
- следите за разделом Биллинг в кабинете;
- задайте отдельные policy rules для тестовых ключей/систем;
- отзовите неиспользуемые ключи.
Запросы в минуту (RPM) и токены в минуту (TPM)
RPM/TPM задаются модулем rateLimit в policy rules. Gateway применяет sliding window на уровне API-ключа:
- RPM — проверяется до вызова модели; при превышении —
429 Too Many Requestsи pipeline stagerate_limit. - TPM — до вызова модели оценивается размер промпта; после успешного ответа в окно записываются фактические prompt + completion tokens.
Для работы счётчиков нужен Redis (REDIS_URL в окружении gateway).
При нескольких правилах с rateLimit применяется наиболее строгий лимит.
Отличие от «rate limit» провайдера
Поставщики моделей (OpenAI, Anthropic и др.) могут иметь свои лимиты RPM/TPM. Ошибки вида 429 Too Many Requests иногда связаны с провайдером, а не с бюджетом LLM Router. См. Решение проблем.
Что дальше
Расходы, лимиты и коммерческий баланс
Как считается потребление, где задаются лимиты, чем они отличаются от оплаты пакета и как получить отчёт.
Policy Rules (Guardrails)
Guardrails в LLM Router задают, как участники workspace и API-ключи могут пользоваться моделями: лимиты расходов, списки разрешённых моделей и провайдеров, пров