Mensagem do Gate News, 24 de Abril — O engenheiro da OpenAI Clive Chan apresentou objecções detalhadas ao capítulo de recomendações de hardware no relatório técnico V4, chamando-lhe "surpreendentemente medíocre e propenso a erros" em comparação com a aclamada versão V3. A orientação de hardware da V3, que incluía sessões de Q&A que se tornaram no tema de discussão mais popular na conferência académica ISCA, ofereceu recomendações específicas alinhadas com normas de interconexão da indústria. Já a V4, em contraste, é muito mais vaga.

Chan contestou sistematicamente três recomendações-chave. No consumo de energia, o relatório sugere que a optimização de software permite que os chips executem simultaneamente em capacidade total computação, armazenamento e comunicação, e recomenda que os fabricantes de chips reservem folga adicional de energia. Chan argumenta que isso é contraproducente: o poder total do chip é limitado por restrições das limitações físicas do processo, pelo que reservar mais margem de energia apenas reduz a frequência de funcionamento, acabando por diminuir o desempenho computacional. No que respeita à transferência de dados de GPU para GPU, o relatório defende um modelo pull—em que as GPUs buscam activamente dados—em vez de um modelo push, citando a elevada sobrecarga de notificações em operações push. Chan contesta isso, sustentando que o pull é na verdade mais lento e que capacidades melhoradas dos adaptadores de rede seriam preferíveis. No entanto, os dois podem estar a discutir camadas diferentes do problema: o relatório trata a sobrecarga do mecanismo de notificação, enquanto Chan se refere à própria latência de transmissão.

Quanto às funções de activação, o relatório recomenda substituir SwiGLU por funções mais simples para reduzir a carga computacional. Chan não vê mérito nisso, observando que o Sonic MoE já demonstrou desempenho óptimo usando SwiGLU. Chan suspeita que o DeepSeek pode ter "enfraquecido deliberadamente esta secção."

Ver fonte

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.

Notícias relacionadas

04-24 04:29

V4-Pro Atinge 67% de Taxa de Aprovação de Código em Teste Interno de Dogfooding, Aproximando o Desempenho do Opus 4.5

04-24 03:21

Os dados de treino do DeepSeek V4 duplicaram para 33T, despoletando instabilidade que atrasou o lançamento

04-24 03:04

A DeepSeek Lança a Série de Modelos Open-Source V4 com 1,6T Parâmetros e Licença MIT

04-24 01:46

A OpenAI Lança o GPT-5.5, Concebido para Tarefas de Agentes e Fluxos de Trabalho Complexos

04-23 20:42

Incumprimento de Segurança da Vercel Expande-se para Centenas de Utilizadores; Desenvolvedores de IA em Maior Risco

Análise aprofundada

A DeepSeek lançou uma pré-visualização de código aberto da V4, com uma pontuação técnica de 3206, superando o GPT-5.4

Market Whisper04-24 05:38

OpenAI lança o GPT-5.5: 12M de contexto, o índice AA atinge o topo, o Terminal-Bench reescreve a referência de agentes com 82,7%

ChainNewsAbmedia04-23 19:45

A Anthropic revela três falhas do Claude Code em cascata: degradação do raciocínio, esquecimento do cache e reação adversa de comandos de 25 caracteres

ChainNewsAbmedia04-23 18:14

Comentar

0/400

Nenhum comentário