MiniMax: MiniMax M3MiniMax-M3 – мультимодальная модель фундамента от MiniMax. Он поддерживает ввод текста, изображений и видео с выводом текста, контекстное окно с токеном 1M и подходит для долгосроч…Вход: ТекстВход: ИзображенияВход: Видео→Выход: Текст31 мая 2026 г.1.0M context
StepFun: Step 3.7 FlashStep 3.7 Flash — это новейшая высокоэффективная мультимодальная модель Mixture of Experts от StepFun. Он сочетает в себе языковую основу с 196B параметрами и видеокодер для естеств…Вход: ТекстВход: ИзображенияВход: Видео→Выход: Текст28 мая 2026 г.256K context
Google: Gemini 3.5 FlashGemini 3.5 Flash — это высокоэффективная мультимодальная модель Google, обеспечивающая кодирование и анализ на уровне профессионального уровня при стоимости и скорости уровня Flash…Вход: ТекстВход: ИзображенияВход: ВидеоВход: ФайлВход: Аудио→Выход: Текст19 мая 2026 г.1.0M context
Google: Gemini 3.1 Flash LiteGemini 3.1 Flash Lite — это высокоэффективная мультимодальная модель Google GA, оптимизированная для больших объемов рабочих нагрузок с малой задержкой. Он поддерживает ввод текста…Вход: ТекстВход: ИзображенияВход: ВидеоВход: ФайлВход: Аудио→Выход: Текст7 мая 2026 г.1.0M context
NVIDIA: Nemotron 3 Nano Omni (free)NVIDIA Nemotron™ 3 Nano Omni — это открытая мультимодальная модель 30B-A3B, предназначенная для работы в качестве субагента восприятия и контекста в системах корпоративных агентов.…Вход: ТекстВход: АудиоВход: ИзображенияВход: Видео→Выход: Текст28 апр. 2026 г.256K contextБесплатно
Google Gemini Pro LatestЭта модель всегда перенаправляет на последнюю модель семейства Google Gemini Pro.Вход: АудиоВход: ФайлВход: ИзображенияВход: ТекстВход: Видео→Выход: Текст27 апр. 2026 г.1.0M context
Google Gemini Flash LatestЭта модель всегда перенаправляет на последнюю модель семейства Google Gemini Flash.Вход: ТекстВход: ИзображенияВход: ВидеоВход: ФайлВход: Аудио→Выход: Текст27 апр. 2026 г.1.0M context
Qwen: Qwen3.5 Plus 2026-04-20Qwen3.5 Plus (апрель 2026 г.) — масштабная мультимодальная языковая модель от Alibaba. Он принимает ввод текста, изображений и видео и производит текстовый вывод с контекстным окно…Вход: ТекстВход: ИзображенияВход: Видео→Выход: Текст27 апр. 2026 г.1M context
Qwen: Qwen3.6 FlashQwen3.6 Flash — это быстрая и эффективная языковая модель из серии Qwen 3.6 от Alibaba. Он поддерживает ввод текста, изображений и видео с помощью контекстного окна токена 1M. Мног…Вход: ТекстВход: ИзображенияВход: Видео→Выход: Текст27 апр. 2026 г.1M context
Qwen: Qwen3.6 35B A3BQwen3.6-35B-A3B — это мультимодальная модель с открытым весом от Alibaba Cloud с 35 миллиардами общих параметров и 3 миллиардами активных параметров на каждый токен. Он использует…Вход: ТекстВход: ИзображенияВход: Видео→Выход: Текст27 апр. 2026 г.262K context
Qwen: Qwen3.6 27BQwen3.6 27B — это плотная языковая модель с 27 миллиардами параметров, разработанная командой Qwen из Alibaba, выпущенная в апреле 2026 года. Она обладает гибридными мультимодальны…Вход: ТекстВход: ИзображенияВход: Видео→Выход: Текст27 апр. 2026 г.262K context
Xiaomi: MiMo-V2.5MiMo-V2.5 — это родная омнимодальная модель от Xiaomi. Он обеспечивает агентную производительность профессионального уровня примерно за половину стоимости вывода, превосходя при эт…Вход: ТекстВход: АудиоВход: ИзображенияВход: Видео→Выход: Текст22 апр. 2026 г.1.0M context
Google: Gemma 4 26B A4BGemma 4 26B A4B IT — это настроенная на основе инструкций модель Mixture-of-Experts (MoE) от Google DeepMind. Несмотря на общее количество параметров в 25,2 млрд, во время вывода н…Вход: ИзображенияВход: ТекстВход: Видео→Выход: Текст3 апр. 2026 г.262K context
Google: Gemma 4 26B A4B (free)Gemma 4 26B A4B IT — это настроенная на основе инструкций модель Mixture-of-Experts (MoE) от Google DeepMind. Несмотря на общее количество параметров в 25,2 млрд, во время вывода н…Вход: ИзображенияВход: ТекстВход: Видео→Выход: Текст3 апр. 2026 г.262K contextБесплатно
Google: Gemma 4 31BGemma 4 31B Instruct — это плотная мультимодальная модель Google DeepMind 30,7B, поддерживающая ввод текста и изображений с выводом текста. Имеет контекстное окно на 256 тысяч токе…Вход: ИзображенияВход: ТекстВход: Видео→Выход: Текст2 апр. 2026 г.262K context
Google: Gemma 4 31B (free)Gemma 4 31B Instruct — это плотная мультимодальная модель Google DeepMind 30,7B, поддерживающая ввод текста и изображений с выводом текста. Имеет контекстное окно на 256 тысяч токе…Вход: ИзображенияВход: ТекстВход: Видео→Выход: Текст2 апр. 2026 г.262K contextБесплатно
Qwen: Qwen3.6 PlusQwen 3.6 Plus построен на гибридной архитектуре, которая сочетает в себе эффективное линейное внимание с редкой маршрутизацией, состоящей из нескольких экспертов, что обеспечивает…Вход: ТекстВход: ИзображенияВход: Видео→Выход: Текст2 апр. 2026 г.1M context
Z.ai: GLM 5V TurboGLM-5V-Turbo — это первая собственная мультимодальная модель агента Z.ai, созданная для кодирования на основе машинного зрения и задач, управляемых агентами. Он изначально обрабаты…Вход: ИзображенияВход: ТекстВход: Видео→Выход: Текст1 апр. 2026 г.203K context
Reka EdgeReka Edge — это чрезвычайно эффективная мультимодальная модель визуального языка 7B, которая принимает входные изображения/видео+текст и генерирует текстовые выходные данные. Эта м…Вход: ИзображенияВход: ТекстВход: Видео→Выход: Текст20 мар. 2026 г.16K context
ByteDance Seed: Seed-2.0-LiteSeed-2.0-Lite — это универсальная и экономичная корпоративная рабочая лошадка, которая обеспечивает мощные мультимодальные и агентские возможности, предлагая при этом заметно меньш…Вход: ТекстВход: ИзображенияВход: Видео→Выход: Текст10 мар. 2026 г.262K context
Qwen: Qwen3.5-9BQwen3.5-9B — это мультимодальная базовая модель из семейства Qwen3.5, предназначенная для обеспечения четкого рассуждения, кодирования и визуального понимания в эффективной 9B-пара…Вход: ТекстВход: ИзображенияВход: Видео→Выход: Текст10 мар. 2026 г.262K context
Google: Gemini 3.1 Flash Lite PreviewGemini 3.1 Flash Lite Preview — это высокоэффективная модель Google, оптимизированная для случаев использования в больших объемах. Он превосходит Gemini 2.5 Flash Lite по общему ка…Вход: ТекстВход: ИзображенияВход: ВидеоВход: ФайлВход: Аудио→Выход: Текст3 мар. 2026 г.1.0M context
ByteDance Seed: Seed-2.0-MiniSeed-2.0-mini предназначен для сценариев, чувствительных к задержкам, высокой степени параллелизма и затратам, уделяя особое внимание быстрому реагированию и гибкому развертыванию…Вход: ТекстВход: ИзображенияВход: Видео→Выход: Текст26 февр. 2026 г.262K context
Qwen: Qwen3.5-35B-A3BQwen3.5 Series 35B-A3B — это собственная модель языка видения, разработанная с использованием гибридной архитектуры, которая объединяет механизмы линейного внимания и модель с разр…Вход: ТекстВход: ИзображенияВход: Видео→Выход: Текст25 февр. 2026 г.262K context
Qwen: Qwen3.5-27BМодель Dense на языке видения Qwen3.5 27B включает в себя механизм линейного внимания, обеспечивающий быстрое время отклика и одновременно балансирующий скорость вывода и производи…Вход: ТекстВход: ИзображенияВход: Видео→Выход: Текст25 февр. 2026 г.262K context
Qwen: Qwen3.5-122B-A10BМодель собственного языка видения Qwen3.5 122B-A10B построена на гибридной архитектуре, которая объединяет механизм линейного внимания с моделью разреженной смеси экспертов, что об…Вход: ТекстВход: ИзображенияВход: Видео→Выход: Текст25 февр. 2026 г.262K context
Qwen: Qwen3.5-FlashFlash-модели Qwen3.5 на родном языке видения построены на гибридной архитектуре, которая объединяет механизм линейного внимания с моделью с разреженной смесью экспертов, что обеспе…Вход: ТекстВход: ИзображенияВход: Видео→Выход: Текст25 февр. 2026 г.1M context
Google: Gemini 3.1 Pro Preview Custom ToolsПредварительная версия Gemini 3.1 Pro Custom Tools — это вариант Gemini 3.1 Pro, который улучшает поведение при выборе инструментов, предотвращая чрезмерное использование обычного…Вход: ТекстВход: АудиоВход: ИзображенияВход: ВидеоВход: Файл→Выход: Текст25 февр. 2026 г.1.0M context
Google: Gemini 3.1 Pro PreviewGemini 3.1 Pro Preview — это передовая модель рассуждения Google, обеспечивающая повышенную производительность разработки программного обеспечения, повышенную надежность агентов и…Вход: АудиоВход: ФайлВход: ИзображенияВход: ТекстВход: Видео→Выход: Текст19 февр. 2026 г.1.0M context
Qwen: Qwen3.5 Plus 2026-02-15Модели серии Plus с собственным языком видения Qwen3.5 построены на гибридной архитектуре, которая объединяет механизмы линейного внимания с редкими моделями смешанного состава экс…Вход: ТекстВход: ИзображенияВход: Видео→Выход: Текст16 февр. 2026 г.1M context
Qwen: Qwen3.5 397B A17BМодель собственного языка видения серии Qwen3.5 397B-A17B построена на гибридной архитектуре, которая объединяет механизм линейного внимания с моделью с разреженной смесью эксперто…Вход: ТекстВход: ИзображенияВход: Видео→Выход: Текст16 февр. 2026 г.256K context
ByteDance Seed: Seed 1.6 FlashSeed 1.6 Flash — это сверхбыстрая мультимодальная модель глубокого мышления от ByteDance Seed, поддерживающая как текстовое, так и визуальное понимание. Он имеет контекстное окно р…Вход: ИзображенияВход: ТекстВход: Видео→Выход: Текст23 дек. 2025 г.262K context
ByteDance Seed: Seed 1.6Seed 1.6 — это модель общего назначения, выпущенная командой ByteDance Seed. Он включает в себя мультимодальные возможности и адаптивное глубокое мышление с контекстным окном разме…Вход: ИзображенияВход: ТекстВход: Видео→Выход: Текст23 дек. 2025 г.262K context
Google: Gemini 3 Flash PreviewGemini 3 Flash Preview — это высокоскоростная и ценная модель мышления, предназначенная для агентских рабочих процессов, многоразового чата и помощи в кодировании. Он обеспечивает…Вход: ТекстВход: ИзображенияВход: ФайлВход: АудиоВход: Видео→Выход: Текст17 дек. 2025 г.1.0M context
Z.ai: GLM 4.6VGLM-4.6V — это большая мультимодальная модель, предназначенная для высококачественного визуального понимания и долгоконтекстного анализа изображений, документов и смешанных медиа.…Вход: ИзображенияВход: ТекстВход: Видео→Выход: Текст8 дек. 2025 г.131K context
Amazon: Nova 2 LiteNova 2 Lite — это быстрая и экономичная модель рассуждения для повседневных рабочих нагрузок, которая может обрабатывать текст, изображения и видео для генерации текста. Nova 2 Li…Вход: ТекстВход: ИзображенияВход: ВидеоВход: Файл→Выход: Текст2 дек. 2025 г.1M context
NVIDIA: Nemotron Nano 12B 2 VL (free)NVIDIA Nemotron Nano 2 VL — это открытая мультимодальная модель рассуждения с 12 миллиардами параметров, предназначенная для понимания видео и анализа документов. Он представляет с…Вход: ИзображенияВход: ТекстВход: Видео→Выход: Текст28 окт. 2025 г.128K contextБесплатно
Google: Gemini 2.5 Flash Lite Preview 09-2025Gemini 2.5 Flash-Lite — это облегченная модель рассуждения в семействе Gemini 2.5, оптимизированная для сверхнизкой задержки и экономической эффективности. Он обеспечивает улучшенн…Вход: ТекстВход: ИзображенияВход: ФайлВход: АудиоВход: Видео→Выход: Текст25 сент. 2025 г.1.0M context
Google: Gemini 2.5 Flash LiteGemini 2.5 Flash-Lite — это облегченная модель рассуждения в семействе Gemini 2.5, оптимизированная для сверхнизкой задержки и экономической эффективности. Он обеспечивает улучшенн…Вход: ТекстВход: ИзображенияВход: ФайлВход: АудиоВход: Видео→Выход: Текст22 июл. 2025 г.1.0M context
Google: Gemini 2.5 FlashGemini 2.5 Flash — это современная рабочая модель Google, специально разработанная для сложных рассуждений, кодирования, математических и научных задач. Он включает в себя встроенн…Вход: ФайлВход: ИзображенияВход: ТекстВход: АудиоВход: Видео→Выход: Текст17 июн. 2025 г.1.0M context
Google: Gemini 2.5 ProGemini 2.5 Pro — это современная модель искусственного интеллекта Google, предназначенная для сложных рассуждений, кодирования, математических и научных задач. Он использует возмож…Вход: ТекстВход: ИзображенияВход: ФайлВход: АудиоВход: Видео→Выход: Текст17 июн. 2025 г.1.0M context
Google: Gemini 2.5 Pro Preview 05-06Gemini 2.5 Pro — это современная модель искусственного интеллекта Google, предназначенная для сложных рассуждений, кодирования, математических и научных задач. Он использует возмож…Вход: ТекстВход: ИзображенияВход: ФайлВход: АудиоВход: Видео→Выход: Текст7 мая 2025 г.1.0M context