Nemotron 3 Ultra — это 550-миллиардная Mixture-of-Experts модель (активно используется только 55 млрд параметров). Она специально заточена под агентные сценарии: планирование, вызов инструментов, работу с суб-агентами, проверку результатов и восстановление после ошибок на протяжении длинных сессий.
Главные преимущества
Контекст до 1 миллиона токенов — можно загружать огромные объёмы данных и держать в памяти всю историю задачи.
Скорость — до 5 раз выше пропускной способности, чем у открытых моделей того же уровня (GLM 5.1, Kimi K2.6, Qwen 3.5) при сопоставимом качестве.
Эффективность — экономит до 30% токенов на сложных задачах, что напрямую снижает стоимость работы агентов.
Модель особенно сильна в:
Agent Productivity (PinchBench — 91%)
Долгосрочном планировании
Кодинге (Terminal-Bench)
Следовании инструкциям
Профессиональных задачах
Полная открытость — главный акцент NVIDIA
В отличие от закрытых гигантов, NVIDIA выложила не только веса модели, но и обучающие данные, и рецепты обучения под новой лицензией OpenMDW-1.1.
Nemotron 3 Ultra уже доступна на Hugging Face, Perplexity, OpenRouter, Amazon SageMaker и других платформах. Разработчики могут дообучать её под свои задачи с помощью LoRA, SFT и RL через библиотеки NeMo.
Технические фишки модели
Гибридная архитектура Mamba + Transformer
NVFP4-прецизион для максимальной скорости на GPU NVIDIA
LatentMoE и Multi-token prediction
Новый метод обучения Multi-Teacher On-Policy Distillation (MOPD) — модель учится сразу у нескольких специализированных «учителей»
Зачем это нужно
Обычные чат-боты уже недостаточны. Будущее — за долгоживущими агентами, которые могут часами работать над проектом: писать код, проводить исследования, управлять процессами. Nemotron 3 Ultra создана именно для таких сценариев и при этом остаётся полностью открытой.
NVIDIA явно делает ставку на то, что будущее агентного ИИ будет строиться на открытых, эффективных и относительно недорогих моделях.