Yifan Zhang Divulga as Especificações Técnicas Completas do DeepSeek V4: 1,6T Parâmetros, 384 Especialistas com 6 Ativações

Mensagem do Gate News, 22 de abril — o estudante de PhD da Princeton, Yifan Zhang, divulgou no X as especificações técnicas completas do DeepSeek V4, após um prévio em 19 de abril. O V4 tem 1,6 trilhão de parâmetros no total e uma variante leve, o V4-Lite, com 285 bilhões de parâmetros.

O modelo emprega o mecanismo de atenção DSA2, que combina a atenção esparsa DSA anterior do DeepSeek (DeepSeek Sparse Attention) da V3.2 e a NSA (Native Sparse Attention) com embeddings de cabeçalho de 512 dimensões, pareado com Sparse Multi-Query Attention (MQA) e Sliding Window Attention (SWA). A camada MoE (Mixture of Experts) contém 384 especialistas com 6 ativados por passagem direta, utilizando o Fused MoE Mega-Kernel. As conexões residuais usam a arquitetura Hyper-Connections.

Detalhes de treinamento revelados pela primeira vez incluem o uso do otimizador Muon (applying Newton-Schulz orthogonalization to momentum updates), uma janela de contexto de pré-treinamento de 32K tokens e GRPO (Group Relative Policy Optimization) com correção de divergência KL durante o aprendizado por reforço. A janela de contexto final se estende até 1 milhão de tokens. O modelo é apenas texto.

Zhang não é empregado pela DeepSeek, e a empresa não comentou oficialmente as informações divulgadas.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

PayPal revela reorganização em três unidades e mira $900M economia anual até o fim de 2027

Em 30 de abril, a PayPal anunciou uma reorganização estrutural abrangente em três unidades de negócios distintas — Consumer, Small Business e Enterprise — com o objetivo de simplificar as operações e acelerar a integração de inteligência artificial. A empresa estima que a reestruturação irá entregar

GateNews34m atrás

Kaisar Network conclui $4 milhão em financiamento para a camada 1 de computação de IA descentralizada

De acordo com a ChainCatcher, a Kaisar Network, uma rede descentralizada de computação de IA em uma camada 1, concluiu $4 milhão em captação até o momento, incluindo US$ 1 milhão em uma rodada estratégica de Pre-Seed. Os investidores incluem Merov Capital, StoneBlock, WM Capital, Arche Fund, Q42 e Unicorn Ventures. A rede

GateNews2h atrás

O CFO da OpenAI descarta rumores sobre metas de receita e diz que a empresa está executando no mais alto nível em 1º de maio

De acordo com a Bloomberg, a diretora financeira (CFO) da OpenAI, Sarah Friar, descartou os rumores de 1º de maio de que a empresa teria perdido metas internas de vendas e de usuários. Friar afirmou que a companhia está executando seus planos no mais alto nível, descrevendo a demanda por produtos como um “muro vertical”. Ela observou que a execução

GateNews2h atrás

O assessor de Musk divulga o lance $974B da xAI por ativos da OpenAI, organização sem fins lucrativos, em tribunal, levantando novas suspeitas

De acordo com o depoimento de Jared Birchall no 4º dia do processo de Musk contra a OpenAI, a oferta da xAI de US$ 974 bilhões pelos ativos sem fins lucrativos da OpenAI tinha como objetivo impedir que Sam Altman desvalorizasse os ativos durante a reestruturação da OpenAI. No entanto, a juíza Yvonne Gonzalez Rogers questionou como Birchall poderia apresentar uma oferta de US$ 974 bil

GateNews3h atrás

Musk admite que a xAI usou destilação em modelos da OpenAI durante o 4º dia do julgamento

De acordo com a Beating e o The Verge, no 4º dia do julgamento entre Musk e a OpenAI, os advogados da OpenAI questionaram se a xAI usou destilação para aprimorar seus modelos usando a tecnologia da OpenAI. Musk inicialmente afirmou que “quase todas as empresas de IA fazem isso”, mas, quando pressionado por uma resposta direta, reconheceu

GateNews4h atrás

66,3% dos funcionários dos EUA com alta renda usam ferramentas de IA no trabalho, mostra pesquisa do Federal Reserve

De acordo com uma pesquisa do Federal Reserve, 66,3% dos funcionários dos EUA que ganham mais de US$ 200.000 por ano usaram ferramentas de IA no trabalho nos últimos 12 meses, em 1º de maio. Entre faixas de renda mais baixas, as taxas de uso diminuem significativamente: 51,6% para aqueles que ganham US$ 100.000–US$ 200.000, 40,2% para aqueles que ganham US$ 50.000–US$ 100.000,

GateNews4h atrás
Comentário
0/400
Sem comentários