
Nvidia офіційно представила Nemotron 3 Super у четвер — це відкритий модельний AI з 120 мільярдами параметрів, спеціально оптимізований для автономних AI-агентів та завдань з наддовгим контекстом. Компанія оголосила про стратегічний план інвестицій у 26 мільярдів доларів протягом п’яти років для створення відкритих AI-моделей, що є прямою відповіддю на швидке зростання відкритих моделей у Китаї на світовому ринку.
Основою дизайну Nemotron 3 Super є вирішення фундаментальної проблеми у системах з кількома агентами — кожен виклик інструменту, крок роздумів і фрагмент контексту вимагають повторного завантаження великої кількості даних, що призводить до зростання витрат і відхилення моделі від очікувань. Nvidia об’єднала три компоненти, які зазвичай рідко зустрічаються разом у одній архітектурі:
Модель навчається у нативному форматі Nvidia NVFP4, починаючи з першого оновлення градієнта, у 4-бітному режимі, що запобігає втратам точності, характерним для перехідного з високої точності. Вікно контексту становить 1 мільйон токенів, що дозволяє зберігати цілі кодові бази або приблизно 750 тисяч англійських слів.
Нижче наведено ключові порівняльні дані щодо пропускної здатності Nemotron 3 Super:
Nvidia повністю оприлюднила процес навчання, включаючи ваги моделі на Hugging Face, 10 трильйонів обраних попередньо навчених зразків (з загальним обсягом понад 25 трильйонів), 40 мільйонів постнавчальних зразків і план з підсиленого навчання, що охоплює 21 різних середовищ. Зараз Perplexity, Palantir, Cadence і Siemens інтегрували цю модель у свої робочі процеси.
Випуск Nemotron 3 Super — лише частина більшого стратегічного плану Nvidia. За словами віце-президента з досліджень глибокого навчання Браяна Катанцаро, компанія вже завершила попереднє навчання моделі з 550 мільярдами параметрів, а також оголосила про інвестиції у 26 мільярдів доларів у відкриті AI-моделі протягом п’яти років.
Стратегічна ситуація дуже напружена: за дослідженнями OpenRouter і Andreessen Horowitz, глобальне використання відкритих моделей із Китаю зросло з 1,2% наприкінці 2024 року до приблизно 30% наприкінці 2025 року; Qwen від Alibaba вже перевищує Llama від Meta за популярністю (дані Runpod). За повідомленнями, наступне покоління моделей DeepSeek тренується повністю на китайських чипах Huawei, що, якщо підтвердиться, стане сильним стимулом для світової спільноти розробників використовувати китайське обладнання — саме з цим Nvidia намагається боротися через свою відкриту стратегію.
Чим Nemotron 3 Super переважає Qwen і GPT-OSS?
У порівнянні з OpenAI GPT-OSS 120B, Nemotron 3 Super швидше у 2,2 рази, а з Qwen3.5-122B — у 7,5 рази. Основна різниця полягає у гібридній архітектурі Mamba-Transformer MoE та нативному навчанні у 4-бітному форматі NVFP4, що дозволяє активувати більше експертів за однакових обчислювальних витрат і забезпечує понад п’ятимножний приріст пропускної здатності порівняно з попередніми моделями.
Чому Nvidia інвестує 26 мільярдів доларів у відкриті AI-моделі саме зараз?
Головні мотиви — запобігти формуванню закритої екосистеми відкритих моделей і китайських чипів, що може посилити залежність від Nvidia у глобальній AI-інфраструктурі; а також створити більш сильний стимул для закупівлі своїх чипів через відкриті моделі, оптимізовані під апаратне забезпечення Nvidia. Зростання частки китайських відкритих моделей на світовому ринку з 1,2% до 30% робить цей крок особливо актуальним.
Чи публікуються повністю дані та ваги Nemotron 3 Super?
Так, Nvidia оприлюднила на Hugging Face повний процес навчання, включаючи ваги моделі, 10 трильйонів обраних попередньо навчених зразків, 40 мільйонів постнавчальних зразків і план з підсиленого навчання у 21 середовищі, що робить цю модель більш прозорою, ніж більшість комерційних аналогів.