Mensagem do Gate News, 22 de abril — O estudante de doutoramento da Princeton, Yifan Zhang, divulgou no X especificações técnicas completas para o DeepSeek V4, na sequência de uma antevisão a 19 de abril. O V4 conta com 1,6 biliões de parâmetros no total e uma variante leve, V4-Lite, com 285 mil milhões de parâmetros.
O modelo utiliza o mecanismo de atenção DSA2, que combina a anterior DSA (DeepSeek Sparse Attention) da DeepSeek da V3.2 e a NSA (Native Sparse Attention) com embeddings de cabeça de 512 dimensões, em conjunto com a Sparse Multi-Query Attention (MQA) e a Sliding Window Attention (SWA). A camada MoE (Mixture of Experts) contém 384 especialistas, com 6 ativados por passagem forward, utilizando o Fused MoE Mega-Kernel. As ligações residuais recorrem à arquitectura Hyper-Connections.
Os detalhes de treino revelados pela primeira vez incluem o uso do optimizador Muon (applying Newton-Schulz orthogonalization to momentum updates), uma janela de contexto de pré-treino de 32K tokens e o GRPO (Group Relative Policy Optimization) com correcção de divergência KL durante a aprendizagem por reforço. A janela de contexto final estende-se até 1 milhão de tokens. O modelo é apenas de texto.
Zhang não é empregado pela DeepSeek, e a empresa não comentou oficialmente as informações divulgadas.
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a
Isenção de responsabilidade.
Related Articles
A Kaisar Network conclui $4 milhões de financiamento para a camada 1 descentralizada de computação de IA
De acordo com a ChainCatcher, a Kaisar Network, uma rede descentralizada de computação de IA na Layer 1, concluiu $4 milhões em financiamento até à data, incluindo 1 milhão de dólares numa ronda estratégica de Pre-Seed. Os investidores incluem Merov Capital, StoneBlock, WM Capital, Arche Fund, Q42 e Unicorn Ventures. A rede
GateNews57m atrás
O CFO da OpenAI desmente rumores sobre metas de receitas e diz que a empresa está a executar no nível mais alto em 1 de Maio
Segundo a Bloomberg, a diretora financeira (CFO) da OpenAI, Sarah Friar, desmentiu rumores a 1 de maio de que a empresa teria falhado as metas internas de vendas e de utilizadores. Friar afirmou que a empresa está a executar os seus planos no mais alto nível, descrevendo a procura pelos produtos como uma «parede vertical». Referiu que a execução
GateNews1h atrás
O assessor de Musk revela a licitação $974B da xAI por ativos sem fins lucrativos da OpenAI em tribunal, suscitando nova análise
De acordo com o testemunho de Jared Birchall no 4.º dia do processo de Musk contra a OpenAI, a proposta de xAI no valor de 974 mil milhões de dólares pelos activos sem fins lucrativos da OpenAI tinha como objectivo impedir que Sam Altman subvalorizasse os activos durante a reestruturação da OpenAI. No entanto, a juíza Yvonne Gonzalez Rogers questionou como é que Birchall poderia apresentar uma proposta de 974 mil milhões de dólares
GateNews2h atrás
Musk admite que a xAI usou destilação em modelos da OpenAI durante o 4.º dia do julgamento
Segundo a Beating e a The Verge, no 4.º dia do julgamento entre Musk e a OpenAI, os advogados da OpenAI questionaram se a xAI tinha usado destilação para melhorar os seus modelos com tecnologia da OpenAI. Musk afirmou inicialmente que «quase todas as empresas de IA fazem isto», mas quando lhe pediram uma resposta direta, reconheceu
GateNews2h atrás
66,3% dos trabalhadores americanos com rendimentos elevados utilizam ferramentas de IA no trabalho, mostra um inquérito da Reserva Federal
De acordo com um inquérito da Reserva Federal, 66,3% dos trabalhadores nos EUA com rendimentos superiores a 200.000 USD anuais já utilizaram ferramentas de IA no trabalho nos últimos 12 meses, à data de 1 de maio. Entre os escalões de rendimentos mais baixos, as taxas de utilização diminuem significativamente: 51,6% para os que auferem entre 100.000 USD e 200.000 USD, 40,2% para os que ganham entre 50.000 USD e 100.000 USD,
GateNews3h atrás
xAI lança a API do Grok 4.3 com uma janela de contexto de 1 milhão de tokens a 1,25 dólares por milhão de tokens de entrada
De acordo com a BlockBeats, a xAI lançou a API do Grok 4.3 a 1 de maio. O novo modelo suporta uma janela de contexto de 1 milhão de tokens e oferece funcionalidades de entrada/saída de texto, capacidades multimodais e chamadas de ferramentas. A API do Grok 4.3 tem um preço de $1,25 por milhão de entradas
GateNews3h atrás