Сообщение Gate News, 24 апреля — технический отчет DeepSeek о V4 показывает, что V4-Flash и V4-Pro были предварительно обучены соответственно на 32T и 33T токенах, то есть вдвое больше, чем примерно 15T токенов, использованных для V3. В отчете признается, что при обучении сталкивались с «существенными проблемами нестабильности»: всплески лосса многократно возникали из-за аномалий в слое Mixture-of-Experts (MoE); сам механизм маршрутизации усугубляет эти аномалии, и простое откатывание не может решить проблему.
DeepSeek внедрила два решения, которые теперь применяются в реальном обучении: Предвосхищающее маршрутизирование, которое отделяет вычисление индекса маршрутизации от обновлений магистральной (backbone) сети и автоматически запускает процесс только при обнаружении всплесков лосса (добавляя примерно 20% накладных расходов), и Ограничение SwiGLU, которое напрямую подавляет аномалии, ограничивая значения активаций фиксированным диапазоном. В отчете говорится, что оба подхода эффективны, но признается: «базовые принципы по-прежнему недостаточно изучены».
Сьюзен Чжан (Susan Zhang), исследователь из Google DeepMind, ранее работавшая в Meta AI и OpenAI, прокомментировала, что нестабильность, вызванная удвоением данных обучения, «объясняет задержку». Она охарактеризовала два решения как «костыли», при этом отметив техническую прозрачность DeepSeek.
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к
Отказу от ответственности.
Связанные статьи
NTT объявляет инициативу AI x OWN и планирует увеличить энергомощности для Японии до 1 ГВт к 2033 году
27 апреля президент NTT Акира Симада объявил инициативу AI x OWN — усилия компании по модернизации интернет-инфраструктуры для использования ИИ в реальном времени. NTT планирует утроить свою внутреннюю мощность электроснабжения с примерно 300 МВт сегодня до около 1 гигаватта к финансовому 2033 году, поскольку телеком-гигант
GateNews22м назад
AI Platform Certifyde завершила раунд seed на 2 миллиона долларов 1 мая, при поддержке генерального директора Ripple Брэда Гарлингхауса
По данным TechfundingNews, платформа для AI-приложений Certifyde завершила раунд посевного финансирования на 2 миллиона долларов 1 мая. Среди инвесторов — K5 Global, Flamingo Capital, а также бизнес-ангелы, включая сооснователя Honey Джорджа Руана, CEO Ripple Брэд Гарлингхаус и сооснователя Nutra Роланда
GateNews1ч назад
Технологический директор Пентагона: Anthropic по-прежнему в черном списке, исключение для Mythos
Технологический руководитель Пентагона (chief) 1 мая заявил в Конгрессе: «Anthropic все еще находится в черном списке, но Mythos Preview — это уже другой вопрос», официально признав, что Пентагон относится к основному бренду Anthropic и его новой модели Mythos по-разному. Этот сигнал совпал с раскрытием Axios от 19 апреля о том, что NSA (Агентство национальной безопасности) фактически использовало Mythos для согласованных ответов, и тем самым официально закрепил политический курс в сторону «исключительного канала для Mythos» — одновременно это также означает, что Пентагон ранее в суде утверждал, что использование инструментов Anthropic будет угрожать нацбезопасности, что вступает в внутреннее противоречие в юридической аргументации с текущими фактическими действиями.
Anthropic vs Pentagon
ChainNewsAbmedia1ч назад
137 Ventures закрывает $700M в новых фондах, AUM достигает 15 млрд долларов
По данным ChainCatcher, 137 Ventures, ранний инвестор в SpaceX, недавно завершила сбор средств для двух новых фондов на общую сумму свыше $700 миллионов, доведя объем активов под управлением до более $15 миллиардов. Новые средства пойдут на инвестиции в AI-агентов, робототехнику и космическую силовую установку
GateNews1ч назад
Reddit взлетает на 16% на сильный прогноз на 2-й квартал; Apple сталкивается с дефицитом Mac из-за того, что спрос на ИИ опережает поставки
Акции Reddit выросли на 16% до открытия рынка в пятницу после того, как компания опубликовала прогноз по выручке на следующий квартал выше ожиданий. Ежедневная активная аудитория увеличилась на 17% до 126,8 миллиона, а средняя выручка на пользователя по всему миру подскочила на 44%, благодаря AI-powered
GateNews2ч назад
Министерство обороны США достигло соглашения с 7 компаниями в сфере ИИ, включая OpenAI, Google и Microsoft
Согласно Министерству обороны США, сегодня (1 мая) ведомство подписало соглашения с семью ведущими компаниями в области искусственного интеллекта: SpaceX, OpenAI, Google, Nvidia, Reflection, Microsoft и Amazon Web Services (AWS). Соглашения направлены на ускорение военной трансформации и создание
GateNews2ч назад