Gate News-сообщение, 24 апреля — инженер OpenAI Клайв Чан высказал подробные возражения против главы с рекомендациями по оборудованию в техническом отчёте V4, назвав её «удивительно посредственной и склонной к ошибкам» по сравнению с получившей признание версией V3. Аппаратные рекомендации V3, которые включали сессии Q&A, ставшие самой популярной темой для обсуждений на академической конференции ISCA, предоставили конкретные рекомендации, согласованные с отраслевыми стандартами межсоединений. Напротив, V4 гораздо более расплывчата.
Чан систематически оспорил три ключевые рекомендации. По энергопотреблению отчёт предполагает, что оптимизация программного обеспечения позволяет чипам одновременно работать на полной мощности для вычислений, хранения и связи, и рекомендует производителям чипов закладывать дополнительный запас по мощности. Чан утверждает, что это контрпродуктивно: общая мощность чипа ограничена физическими ограничениями технологического процесса, поэтому резервирование большего запаса по мощности лишь снижает рабочую частоту, в конечном итоге уменьшая вычислительную производительность. Что касается передачи данных GPU-to-GPU, отчёт предлагает модель pull — когда GPU активно запрашивают данные — вместо модели push, ссылаясь на высокие издержки на уведомления при операциях push. Чан с этим не согласен: он утверждает, что pull на самом деле медленнее и что предпочтительнее улучшенные возможности сетевых адаптеров. Однако возможно, что они обсуждают разные уровни проблемы: отчёт говорит об издержках механизма уведомлений, тогда как Чан имеет в виду саму задержку передачи.
По функциям активации отчёт рекомендует заменить SwiGLU более простыми функциями, чтобы снизить вычислительную нагрузку. Чан не видит в этом смысла, отмечая, что Sonic MoE уже продемонстрировал оптимальную производительность, используя SwiGLU. Чан предполагает, что DeepSeek, возможно, «намеренно ослабил этот раздел».
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к
Отказу от ответственности.
Связанные статьи
Anthropic Claude Code обошлось пользователю в $200,98 из-за ошибки в выставлении счетов; сначала отказали в возврате средств, прежде чем в итоге компенсировали полностью
По данным мониторинга от Beating, ошибка в биллинге в сервисе Anthropic Claude Code привела к тому, что подписчика Max 20x переплатили $200,98 за дополнительные комиссии за использование при том, что они использовали только 13% своего ежемесячного лимита. Ошибка срабатывала, когда в истории коммитов git-репозитория пользователя содержались заглавные буквы
GateNews1м назад
DeepSeek представила метод Visual Primitives для усиления мультимодального рассуждения 30 апреля
Согласно техническому отчёту DeepSeek, 30 апреля компания представила Visual Primitives — метод, который встраивает базовые визуальные единицы, такие как точки и ограничивающие рамки (bounding boxes), в цепочки рассуждений, чтобы решить проблему Reference Gap в мультимодальных задачах. Метод сокращает потребление токенов изображения
GateNews26м назад
NVIDIA выпускает веса флагманской модели Cosmos-Reason2-32B и расширяет контекстное окно до 256 тыс. токенов
По сообщению Beating, NVIDIA выпустила веса для Cosmos-Reason2-32B — флагманской версии своего физического AI-модели рассуждений для зрения и языка (VLM), предназначенной, чтобы помочь роботам и системам автономного вождения понимать пространственные, временные и физические принципы. Модель с 32-миллиарда параметров,
GateNews29м назад
OpenAI раскрыл, почему Codex запрещает говорить «гоблинов»: награда за «ботанический» типаж вышла из-под контроля
OpenAI в официальном блоге объяснила запрет Codex на «гоблинов» и другие существа: это связано с предпочтением биоморфных метафор в поощрительных сигналах, которые использовались при обучении шизоидного «книжного» типа личности, что привело к межличностному загрязнению и ошибочному RLHF-наведению. Инцидент раскрыл Barron Roth после того, как были опубликованы системные инструкции; OpenAI применяет две стратегии — краткосрочное жесткое кодирование и долгосрочное удаление поощрительных сигналов, — предупреждая о хрупкости дизайна наград и необходимости более точного посттренировочного аудита.
ChainNewsAbmedia1ч назад
Alibaba открывает исходный код модуля интерпретируемости Qwen-Scope для Qwen, охватывающего 7 моделей, 30 апреля
По данным PANews, 30 апреля Alibaba's Qwen объявила о выпуске с открытым исходным кодом Qwen-Scope — модуля интерпретируемости, обученного на моделях серий Qwen3 и Qwen3.5. Релиз охватывает 7 крупных языковых моделей в вариантах для плотных и mixture-of-experts, а также 14 наборов разреженных автоэнкодеров
GateNews2ч назад
ИИ-серверы Nvidia B300 достигли $1 млн в Китае на фоне дефицита поставок
Как сообщает Reuters, AI-серверы Nvidia B300 теперь продаются в Китае примерно за 7 миллионов юаней (1 миллион долларов США) — на фоне пресечения каналов контрабанды и сохранения спроса со стороны местных технологических компаний. Цена выросла с примерно 4 миллионов юаней (585 000 долларов США) в конце 2025 года, значительно
GateNews2ч назад