Nvidia 260 мільйард інвестицій у відкритий AI, Nemotron 3 Super кидає виклик китайським моделям

MarketWhisper

Nvidia оголосила про Nemotron 3 Super

Nvidia офіційно представила Nemotron 3 Super у четвер — це відкритий модельний AI з 120 мільярдами параметрів, спеціально оптимізований для автономних AI-агентів та завдань з наддовгим контекстом. Компанія оголосила про стратегічний план інвестицій у 26 мільярдів доларів протягом п’яти років для створення відкритих AI-моделей, що є прямою відповіддю на швидке зростання відкритих моделей у Китаї на світовому ринку.

Технічна архітектура Nemotron 3 Super: глибока інтеграція трьох рідкісних компонентів

Основою дизайну Nemotron 3 Super є вирішення фундаментальної проблеми у системах з кількома агентами — кожен виклик інструменту, крок роздумів і фрагмент контексту вимагають повторного завантаження великої кількості даних, що призводить до зростання витрат і відхилення моделі від очікувань. Nvidia об’єднала три компоненти, які зазвичай рідко зустрічаються разом у одній архітектурі:

  • Модель Mamba-2 для простору станів (Mamba-2 State Space Layers), яка замінює механізм уваги і забезпечує швидшу обробку довгих послідовностей та більш ефективне використання пам’яті;
  • Механізм уваги Transformer для точного відновлення інформації;
  • Новий дизайн «Latent Mixture of Experts» (Latent MoE), який перед маршрутизацією стискає токени, дозволяючи моделі активувати вчетверо більше експертних модулів за однакових обчислювальних витрат.

Модель навчається у нативному форматі Nvidia NVFP4, починаючи з першого оновлення градієнта, у 4-бітному режимі, що запобігає втратам точності, характерним для перехідного з високої точності. Вікно контексту становить 1 мільйон токенів, що дозволяє зберігати цілі кодові бази або приблизно 750 тисяч англійських слів.

Ефективність та застосування у бізнесі

Нижче наведено ключові порівняльні дані щодо пропускної здатності Nemotron 3 Super:

  • У порівнянні з OpenAI GPT-OSS 120B: швидше у 2,2 рази
  • У порівнянні з Qwen3.5-122B від Alibaba: швидше у 7,5 рази
  • У порівнянні з попередньою версією: загальна пропускна здатність зросла більш ніж у 5 разів

Nvidia повністю оприлюднила процес навчання, включаючи ваги моделі на Hugging Face, 10 трильйонів обраних попередньо навчених зразків (з загальним обсягом понад 25 трильйонів), 40 мільйонів постнавчальних зразків і план з підсиленого навчання, що охоплює 21 різних середовищ. Зараз Perplexity, Palantir, Cadence і Siemens інтегрували цю модель у свої робочі процеси.

Стратегічний намір на 26 мільярдів доларів: відповідь на глобальне зростання відкритих моделей у Китаї

Випуск Nemotron 3 Super — лише частина більшого стратегічного плану Nvidia. За словами віце-президента з досліджень глибокого навчання Браяна Катанцаро, компанія вже завершила попереднє навчання моделі з 550 мільярдами параметрів, а також оголосила про інвестиції у 26 мільярдів доларів у відкриті AI-моделі протягом п’яти років.

Стратегічна ситуація дуже напружена: за дослідженнями OpenRouter і Andreessen Horowitz, глобальне використання відкритих моделей із Китаю зросло з 1,2% наприкінці 2024 року до приблизно 30% наприкінці 2025 року; Qwen від Alibaba вже перевищує Llama від Meta за популярністю (дані Runpod). За повідомленнями, наступне покоління моделей DeepSeek тренується повністю на китайських чипах Huawei, що, якщо підтвердиться, стане сильним стимулом для світової спільноти розробників використовувати китайське обладнання — саме з цим Nvidia намагається боротися через свою відкриту стратегію.

Часті питання

Чим Nemotron 3 Super переважає Qwen і GPT-OSS?
У порівнянні з OpenAI GPT-OSS 120B, Nemotron 3 Super швидше у 2,2 рази, а з Qwen3.5-122B — у 7,5 рази. Основна різниця полягає у гібридній архітектурі Mamba-Transformer MoE та нативному навчанні у 4-бітному форматі NVFP4, що дозволяє активувати більше експертів за однакових обчислювальних витрат і забезпечує понад п’ятимножний приріст пропускної здатності порівняно з попередніми моделями.

Чому Nvidia інвестує 26 мільярдів доларів у відкриті AI-моделі саме зараз?
Головні мотиви — запобігти формуванню закритої екосистеми відкритих моделей і китайських чипів, що може посилити залежність від Nvidia у глобальній AI-інфраструктурі; а також створити більш сильний стимул для закупівлі своїх чипів через відкриті моделі, оптимізовані під апаратне забезпечення Nvidia. Зростання частки китайських відкритих моделей на світовому ринку з 1,2% до 30% робить цей крок особливо актуальним.

Чи публікуються повністю дані та ваги Nemotron 3 Super?
Так, Nvidia оприлюднила на Hugging Face повний процес навчання, включаючи ваги моделі, 10 трильйонів обраних попередньо навчених зразків, 40 мільйонів постнавчальних зразків і план з підсиленого навчання у 21 середовищі, що робить цю модель більш прозорою, ніж більшість комерційних аналогів.

Переглянути оригінал
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів