Os dados de treino do DeepSeek V4 duplicaram para 33T, despoletando instabilidade que atrasou o lançamento

Mensagem de Gate News, 24 de abril — O relatório técnico V4 da DeepSeek revela que o V4-Flash e o V4-Pro foram pré-treinados em 32T e 33T tokens, respetivamente, o dobro dos aproximadamente 15T tokens usados para o V3. O relatório reconhece ter encontrado “desafios significativos de instabilidade” durante o treino, com picos de perda a ocorrer repetidamente devido a anomalias na camada Mixture-of-Experts (MoE); o mecanismo de routing em si agrava estas anomalias, e um simples rollback não consegue resolver o problema.

DeepSeek implementou duas soluções agora aplicadas ao treino real: Routing Antecipatório, que desacopla o cálculo do índice de routing das atualizações da rede backbone e ativa automaticamente apenas quando são detetados picos de perda (adicionando aproximadamente 20% de sobrecarga), e SwiGLU Clamping, que suprime diretamente as anomalias ao limitar os valores de ativação a um intervalo fixo. O relatório afirma que as duas abordagens são eficazes, mas admite que “os princípios subjacentes permanecem insuficientemente compreendidos.”

Susan Zhang, uma investigadora da Google DeepMind que anteriormente trabalhou na Meta AI e na OpenAI, comentou que a instabilidade despoletada pelo dobro dos dados de treino “explica o atraso”. Ela descreveu as duas soluções como “band-aids” enquanto reconhecia a transparência técnica da DeepSeek.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Claw Intelligence faz parceria com a Block Sec Arena para reforçar a segurança da BNB Chain

De acordo com o anúncio oficial da Block Sec Arena a 30 de abril, a Claw Intelligence, uma plataforma Web3 orientada por IA construída na BNB Chain, anunciou uma parceria estratégica com a Block Sec Arena para integrar infraestruturas avançadas de cibersegurança no seu ecossistema. A colaboração tem como objetivo reforçar p

GateNews3h atrás

A NTT Anuncia a Iniciativa AI x OWN e Planos para Triplicar a Capacidade de Energia do Japão para 1 GW até 2033

Em 27 de abril, o presidente da NTT, Akira Shimada, anunciou a iniciativa AI x OWN, o esforço da empresa para redesenhar a infraestrutura da internet para um uso de IA em tempo real. A NTT planeia triplicar a sua capacidade doméstica de energia de cerca de 300 MW hoje para cerca de 1 gigawatt até ao ano fiscal de 2033, à medida que a gigante das telecomunicações

GateNews4h atrás

A plataforma de IA Certifyde conclui uma ronda de investimento semente de 2 milhões de dólares a 1 de maio, apoiada pelo CEO da Ripple, Brad Garlinghouse

De acordo com a TechfundingNews, a plataforma de aplicações de IA Certifyde concluiu uma ronda de seed no valor de 2 milhões de dólares a 1 de maio. Os investidores incluem a K5 Global, a Flamingo Capital e investidores-anjo, incluindo o cofundador da Honey George Ruan, o CEO da Ripple Brad Garlinghouse e o cofundador da Nutra Roland

GateNews5h atrás

Chefe de tecnologia do Pentágono: a Anthropic continua na lista negra, tratamento de excepções para a Mythos

O responsável pela tecnologia do Pentágono (Pentagon technology chief) dos EUA, em 1 de maio, disse ao Congresso que «a Anthropic continua na lista negra, mas o Mythos Preview é outra questão», reconhecendo formalmente que o Departamento de Defesa distingue o principal produto da Anthropic e o seu novo modelo, Mythos, no modo como os trata. Esta declaração coincide com a revelação da Axios, a 19 de abril, de que a NSA (Agência de Segurança Nacional) já tinha usado o Mythos para criar uma resposta correspondente, e formaliza a orientação de política que estabelece «um canal de exceção para o Mythos» — o que também significa que o Pentágono, anteriormente, defendeu em tribunal que o uso de ferramentas da Anthropic ameaçaria a segurança nacional, criando uma contradição interna ao nível do argumento jurídico face às práticas atuais. Anthropic vs Pentagon

ChainNewsAbmedia6h atrás

A 137 Ventures fecha $700M em novos fundos, AUM atinge 15 mil milhões de dólares

De acordo com o ChainCatcher, a 137 Ventures, um dos primeiros investidores na SpaceX, concluiu recentemente a recolha de fundos para dois novos fundos, num total superior a 700 milhões de dólares, elevando os seus activos sob gestão para mais de 15 mil milhões de dólares. O novo capital vai apoiar investimentos em agentes de IA, robótica e propulsão espacial

GateNews6h atrás

O Reddit regista um aumento de 16% com fortes perspetivas para o 2.º trimestre; a Apple enfrenta falta de Macs à medida que a procura por IA supera a oferta

As acções da Reddit subiram 16% antes da abertura do mercado na sexta-feira, depois de a empresa ter divulgado uma previsão de receitas para o próximo trimestre superior ao esperado. Os visitantes diários ativos cresceram 17% para 126,8 milhões, enquanto a receita média por utilizador a nível mundial disparou 44%, impulsionada por IA alimentada por

GateNews6h atrás
Comentar
0/400
Nenhum comentário