Сообщение Gate News, 24 апреля — DeepSeek выпустила серию моделей V4 с открытым исходным кодом под лицензией MIT; веса теперь доступны на Hugging Face и ModelScope. В серии есть две модели (MoE) с экспертами-смесителями: V4-Pro с 1,6 трлн общих параметров и 49 млрд активируемых на токен, и V4-Flash с 284 млрд общих параметров и 13 млрд активируемых на токен. Обе поддерживают контекстное окно в 1 млн токенов.
Архитектура включает три ключевых улучшения: гибридный механизм внимания, сочетающий сжатое разреженное внимание (CSA) и сильно сжатое внимание (HCA), что существенно снижает издержки для длинного контекста — FLOPs инференса V4-Pro для контекста 1M составляют всего 27% от V3.2, а KV-кэш (VRAM для хранения исторической информации во время инференса) равен лишь 10% от V3.2; manifold-constrained гиперсвязи (mHC) вместо традиционных residual-связей для повышения устойчивости распространения сигнала между слоями; и оптимизатор Muon для более быстрой сходимости обучения. Предобучение использовало более 32 трлн токенов данных.
Постобучение применяет двухэтапный подход: сначала обучение предметно-ориентированных экспертов с помощью supervised fine-tuning (SFT) и reinforcement learning через GRPO, затем объединение их в единую модель посредством онлайн-дистилляции. V4-Pro-Max (highest inference mode) заявляет, что это самая сильная открытая модель с топовыми бенчмарками по кодированию и существенно сократившимися разрывами с закрытыми моделями фронтира по задачам рассуждения и агентным задачам. V4-Flash-Max достигает уровня рассуждений Pro при достаточном вычислительном бюджете, но ограничена масштабом параметров в чисто знаниях и сложных агентных задачах. Веса хранятся в смешанном формате точности FP4+FP8.
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к
Отказу от ответственности.
Связанные статьи
X (Твиттер) получил крупнейшее за 20 лет обновление рекламной платформы: xAI вмешивается, а AI-таргетирование становится ключевым
X объявила о запуске с апреля 2026 года крупнейшей за 20 лет переработки рекламной платформы: будет перестроена базовая технология и интегрирована xAI. Новая платформа будет фокусироваться на AI-оптимизации эффективности, семантической и контекстной рекламе, чтобы повысить удобство управления и контроль размещений. Цель — превратить рекламные кампании в коммерческие сигналы, возникающие в реальном контексте, а также в связке со стратегией Everything App стать бизнес-движком экосистемы X.
ChainNewsAbmedia1ч назад
Поддерживаемый OpenAI 1X открывает завод площадью 58 000 кв. футов в Калифорнии, нацелен на 10 000 роботов в первый год
По данным Bloomberg, 1X Technologies, стартап в области робототехники с поддержкой OpenAI, основанный в Норвегии, открыл производственный объект площадью 58 000 квадратных футов в Хейворде, штат Калифорния, стремясь занять лидирующие позиции в массовом производстве доступных для потребителей гуманоидных роботов.
Ожидается, что на предприятии будут производить 10 000 роботов в его
GateNews3ч назад
Белый дом готовит проект меморандума о политике в области ИИ, предписывающий госорганам США использовать нескольких поставщиков ИИ 30 апреля
По данным источников, на которые ссылается PANews 30 апреля, должностные лица Белого дома разрабатывают всеобъемлющую записку о политике в области искусственного интеллекта, которая предписывает государственным ведомствам США привлекать нескольких поставщиков AI-услуг и избегать опоры на одного вендора. В записке также говорится, что все AI-компании, с которыми заключаются контракты
GateNews4ч назад
Управление киберпространства Китая запускает 4-месячную кампанию по пресечению хаоса в работе приложений на базе ИИ 30 апреля
По данным CCTV News, Администрация киберпространства Китая запустила общенациональную четырехмесячную кампанию 30 апреля для решения проблемы хаоса в применении ИИ. Инициатива, развернутая в два этапа, нацелена на такие проблемы, как отсутствие регистраций моделей, недостаточные возможности по безопасности и проверке платформ,
GateNews4ч назад
Forefront Tech завершает $100M ценообразование IPO, листинг на Nasdaq под кодом FTHAU
По данным ChainCatcher, компания специального назначения по слияниям и поглощениям Forefront Tech завершила ценовое размещение IPO на сумму 100 миллионов долларов 30 апреля и будет торговаться на Nasdaq под тикером FTHAU. Компания планирует использовать вырученные средства для поиска возможностей слияний и поглощений в блокчейне, финтехе, искусственном
GateNews5ч назад
Anthropic Claude Code обошлось пользователю в $200,98 из-за ошибки в выставлении счетов; сначала отказали в возврате средств, прежде чем в итоге компенсировали полностью
По данным мониторинга от Beating, ошибка в биллинге в сервисе Anthropic Claude Code привела к тому, что подписчика Max 20x переплатили $200,98 за дополнительные комиссии за использование при том, что они использовали только 13% своего ежемесячного лимита. Ошибка срабатывала, когда в истории коммитов git-репозитория пользователя содержались заглавные буквы
GateNews6ч назад