DeepSeek випускає серію відкритих моделей V4 із 1,6T параметрів і ліцензією MIT

Повідомлення Gate News, 24 квітня — DeepSeek випустила серію V4 відкритих моделей із відкритим вихідним кодом під ліцензією MIT, а ваги тепер доступні на Hugging Face та ModelScope. Серія включає дві (MoE) моделі mixture-of-experts: V4-Pro із 1,6 трильйона загальних параметрів і 49 мільярдів активованих на токен, та V4-Flash із 284 мільярдами загальних параметрів і 13 мільярдами активованих на токен. Обидві підтримують контекстне вікно на 1 мільйон токенів.

Архітектура містить три ключові оновлення: гібридний механізм уваги, що поєднує стиснену розріджену attention (CSA) та сильно стиснену attention (HCA), який суттєво зменшує накладні витрати для довгого контексту—FLOPs інференсу V4-Pro для 1M контексту становить лише 27% від V3.2, а KV cache (VRAM для зберігання історичної інформації під час інференсу) — лише 10% від V3.2; manifold-constrained hyperconnections (mHC) замінюють традиційні residual-з’єднання, щоб підвищити стабільність поширення сигналу між шарами; і оптимізатор Muon для швидшого збігання під час тренування. Попереднє навчання використовувало понад 32 трильйони токенів даних.

Післянавчання застосовує двоетапний підхід: спочатку тренування доменно-специфічних експертів через supervised fine-tuning (SFT) та reinforcement learning GRPO, потім об’єднання їх в єдину модель через online distillation. V4-Pro-Max (найвищий режим інференсу) стверджує, що це найсильніша відкрита модель із топовими бенчмарками з кодування та суттєво звуженими розривами з закритими моделями на фронтирі в задачах міркувань і агентів. V4-Flash-Max досягає рівня Pro у міркуваннях за достатнього бюджету обчислень, але обмежується масштабом параметрів у чистих задачах знань і складних задачах агентів. Ваги зберігаються у змішаній точності FP4+FP8.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

X (Twitter) отримав найбільше за 20 років оновлення рекламної платформи, xAI втрутилася, а AI-семантичний таргетинг став ключовим

X оголосив про запуск із квітня 2026 року найбільшої за 20 років модернізації рекламної платформи: перебудову базових технологій і поєднання з xAI. Нова платформа робить ставку на AI-керовану оптимізацію ефективності, семантичну та контекстну рекламу, щоб підвищити зручність керування й контроль під час розміщення. Її мета — перетворити рекламу на комерційні сигнали в реальному контексті, а в поєднанні зі стратегією Everything App — стати бізнес-движком екосистеми X.

ChainNewsAbmedia1год тому

Підтримуваний OpenAI проєкт 1X відкриває 58 000 кв. футів фабрики в Каліфорнії та планує 10 000 роботів у перший рік

Згідно з Bloomberg, 1X Technologies — стартап у сфері робототехніки, підтримуваний OpenAI, заснований у Норвегії, — відкрив виробничий об’єкт площею 58 000 квадратних футів у Гейворді (Каліфорнія), прагнучи стати лідером у масовому виробництві споживчих гуманоїдних роботів. Очікується, що на підприємстві вироблятимуть 10 000 роботів у своєму

GateNews3год тому

Білий дім готує проєкт меморандуму з політики щодо ШІ, який зобов’язує держагенції США використовувати кількох постачальників ШІ 30 квітня

За даними джерел, на які PANews посилається 30 квітня, посадовці Білого дому готують всеосяжну політику щодо штучного інтелекту у вигляді службової записки, яка доручає урядовим агенціям США впроваджувати кількох постачальників AI-послуг і уникати залежності від одного постачальника. Записка також вимагає, щоб усі компанії з AI, яких укладають

GateNews4год тому

Адміністрація кіберпростору Китаю запускає 4-місячну кампанію для стримування хаосу застосунків на базі ШІ з 30 квітня

За даними CCTV News, Адміністрація кіберпростору Китаю 30 квітня запустила загальнонаціональну чотиримісячну кампанію для врегулювання хаосу в застосуванні ШІ. Ініціатива, розгорнута у дві фази, націлена на проблеми, зокрема відсутність реєстрацій моделей, недостатні можливості безпеки та перевірок на платформах,

GateNews4год тому

Forefront Tech завершує $100M зведення цін IPO, лістинг на Nasdaq за кодом FTHAU

За даними ChainCatcher, спеціальна інвестиційна компанія з викупом Forefront Tech завершила розміщення IPO на суму 100 мільйонів доларів 30 квітня та буде торгуватися на Nasdaq під тикером FTHAU. Компанія планує використати виручені кошти для пошуку можливостей злиттів і поглинань у блокчейні, фінтеху, штучному

GateNews5год тому

Код Anthropic Claude завищив оплату користувачу на $200,98 через помилку в білінгу; спочатку відмовили у поверненні коштів, перш ніж повністю компенсувати збитки

За моніторингом від Beating, помилка в білінгу в сервісі Anthropic Claude Code спричинила тому, що Max 20x підписника було переплачено $200,98 додаткових комісій за використання, хоча він використав лише 13% свого щомісячного ліміту. Помилка виникла, коли в історії комітів git-репозиторію користувача містився верхній регістр

GateNews6год тому
Прокоментувати
0/400
Немає коментарів