Qwen: Qwen3 VL 8B Thinking

qwen/qwen3-vl-8b-thinking

Qwen3-VL-8B-Thinking — это оптимизированный для рассуждений вариант мультимодальной модели Qwen3-VL-8B, предназначенный для расширенных визуальных и текстовых рассуждений в сложных сценах, документах и временных последовательностях. Он объединяет расширенное мультимодальное выравнивание и обработку длинного контекста (собственные 256 КБ, с возможностью расширения до 1 миллион токенов) для таких задач, как научный визуальный анализ, причинно-следственные выводы и математические рассуждения над входными изображениями или видео. По сравнению с версией Instruct, версия Thinking обеспечивает более глубокое слияние визуального языка и продуманные пути рассуждения, которые повышают производительность при выполнении логических задач с длинной цепочкой, решении STEM-задач и многоэтапном понимании видео. Он обеспечивает более сильную временную привязку с помощью Interleaved-MRoPE и встраивания с учетом временных меток, сохраняя при этом надежное распознавание текста, многоязычное понимание и генерацию текста на уровне больших текстовых LLM.

Модальности

Цена ввод / вывод

Тарифы уточняются

Контекст256K

Релиз14 окт. 2025 г.

Провайдеры

Одна и та же модель может быть доступна у разных провайдеров. Маршрутизация выбирает эндпоинт по политике, цене, задержке и доступности.

Нет активных эндпоинтов для этой модели.

Производительность

Пропускная способность — скорость генерации (ток/с, выше лучше). Задержка — полный round-trip (ниже лучше). TTFT — время до первого токена (ниже лучше). Графики разбиты по провайдерам — нажмите expand для деталей.

Пропускная способность—лучший провайдер

Задержка—P50, лучший провайдер

Тарифы

Базовая цена за миллион токенов. Эффективная цена учитывает prompt caching: повторяющийся контекст тарифицируется по ставке cache_read.

Тарифы появятся после подключения провайдеров.

Бенчмарки

Для этой модели пока нет опубликованных результатов бенчмарков.

Активность

Объём запросов и токенов к модели за последние 7 дней.

Доступность

Доля успешных ответов за период. Мониторинг эндпоинтов и автоматический fallback при ошибках upstream.

Быстрый старт

Готовый код для вызова модели. API совместим с OpenAI — достаточно указать base_url LLM Mart. Меняется только slug модели: qwen/qwen3-vl-8b-thinking.

curl -s "https://llmmart.ru/api/v1/v1/chat/completions" \
  -H "Authorization: Bearer $LLM_ROUTER_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen/qwen3-vl-8b-thinking",
    "messages": [
      {"role": "user", "content": "Привет!"}
    ]
  }'

Нужен API-ключ организации — создайте ключ в личном кабинете или см. инструкцию. Подробнее: первый запрос к модели и примеры SDK.

Ещё модели от Qwen

Все модели (52)

Qwen: Qwen3 VL 8B Thinking

Провайдеры

Производительность

Тарифы

Бенчмарки

Активность

Доступность

Быстрый старт

Ещё модели от Qwen

Qwen: Qwen3.7 Plus

Qwen: Qwen3.7 Max

Qwen: Qwen3 ASR Flash

Qwen: Qwen3.5 Plus 2026-04-20

Qwen: Qwen3.6 Flash

Qwen: Qwen3.6 35B A3B

Qwen: Qwen3.6 Max Preview

Qwen: Qwen3.6 27B

Qwen: Qwen3.6 Plus

Qwen: Qwen3.5-9B

Qwen: Qwen3.5-35B-A3B

Qwen: Qwen3.5-27B