Данные обучения DeepSeek V4 удвоены до 33T — возникла нестабильность, из-за которой релиз был отложен

Сообщение Gate News, 24 апреля — технический отчет DeepSeek о V4 показывает, что V4-Flash и V4-Pro были предварительно обучены соответственно на 32T и 33T токенах, то есть вдвое больше, чем примерно 15T токенов, использованных для V3. В отчете признается, что при обучении сталкивались с «существенными проблемами нестабильности»: всплески лосса многократно возникали из-за аномалий в слое Mixture-of-Experts (MoE); сам механизм маршрутизации усугубляет эти аномалии, и простое откатывание не может решить проблему.

DeepSeek внедрила два решения, которые теперь применяются в реальном обучении: Предвосхищающее маршрутизирование, которое отделяет вычисление индекса маршрутизации от обновлений магистральной (backbone) сети и автоматически запускает процесс только при обнаружении всплесков лосса (добавляя примерно 20% накладных расходов), и Ограничение SwiGLU, которое напрямую подавляет аномалии, ограничивая значения активаций фиксированным диапазоном. В отчете говорится, что оба подхода эффективны, но признается: «базовые принципы по-прежнему недостаточно изучены».

Сьюзен Чжан (Susan Zhang), исследователь из Google DeepMind, ранее работавшая в Meta AI и OpenAI, прокомментировала, что нестабильность, вызванная удвоением данных обучения, «объясняет задержку». Она охарактеризовала два решения как «костыли», при этом отметив техническую прозрачность DeepSeek.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

NTT объявляет инициативу AI x OWN и планирует увеличить энергомощности для Японии до 1 ГВт к 2033 году

27 апреля президент NTT Акира Симада объявил инициативу AI x OWN — усилия компании по модернизации интернет-инфраструктуры для использования ИИ в реальном времени. NTT планирует утроить свою внутреннюю мощность электроснабжения с примерно 300 МВт сегодня до около 1 гигаватта к финансовому 2033 году, поскольку телеком-гигант

GateNews22м назад

AI Platform Certifyde завершила раунд seed на 2 миллиона долларов 1 мая, при поддержке генерального директора Ripple Брэда Гарлингхауса

По данным TechfundingNews, платформа для AI-приложений Certifyde завершила раунд посевного финансирования на 2 миллиона долларов 1 мая. Среди инвесторов — K5 Global, Flamingo Capital, а также бизнес-ангелы, включая сооснователя Honey Джорджа Руана, CEO Ripple Брэд Гарлингхаус и сооснователя Nutra Роланда

GateNews1ч назад

Технологический директор Пентагона: Anthropic по-прежнему в черном списке, исключение для Mythos

Технологический руководитель Пентагона (chief) 1 мая заявил в Конгрессе: «Anthropic все еще находится в черном списке, но Mythos Preview — это уже другой вопрос», официально признав, что Пентагон относится к основному бренду Anthropic и его новой модели Mythos по-разному. Этот сигнал совпал с раскрытием Axios от 19 апреля о том, что NSA (Агентство национальной безопасности) фактически использовало Mythos для согласованных ответов, и тем самым официально закрепил политический курс в сторону «исключительного канала для Mythos» — одновременно это также означает, что Пентагон ранее в суде утверждал, что использование инструментов Anthropic будет угрожать нацбезопасности, что вступает в внутреннее противоречие в юридической аргументации с текущими фактическими действиями. Anthropic vs Pentagon

ChainNewsAbmedia1ч назад

137 Ventures закрывает $700M в новых фондах, AUM достигает 15 млрд долларов

По данным ChainCatcher, 137 Ventures, ранний инвестор в SpaceX, недавно завершила сбор средств для двух новых фондов на общую сумму свыше $700 миллионов, доведя объем активов под управлением до более $15 миллиардов. Новые средства пойдут на инвестиции в AI-агентов, робототехнику и космическую силовую установку

GateNews1ч назад

Reddit взлетает на 16% на сильный прогноз на 2-й квартал; Apple сталкивается с дефицитом Mac из-за того, что спрос на ИИ опережает поставки

Акции Reddit выросли на 16% до открытия рынка в пятницу после того, как компания опубликовала прогноз по выручке на следующий квартал выше ожиданий. Ежедневная активная аудитория увеличилась на 17% до 126,8 миллиона, а средняя выручка на пользователя по всему миру подскочила на 44%, благодаря AI-powered

GateNews2ч назад

Министерство обороны США достигло соглашения с 7 компаниями в сфере ИИ, включая OpenAI, Google и Microsoft

Согласно Министерству обороны США, сегодня (1 мая) ведомство подписало соглашения с семью ведущими компаниями в области искусственного интеллекта: SpaceX, OpenAI, Google, Nvidia, Reflection, Microsoft и Amazon Web Services (AWS). Соглашения направлены на ускорение военной трансформации и создание

GateNews2ч назад
комментарий
0/400
Нет комментариев