A DeepSeek Lança a Série de Modelos Open-Source V4 com 1,6T Parâmetros e Licença MIT

Mensagem do Gate News, 24 de abril — A DeepSeek lançou a série V4 de modelos de código aberto sob a Licença MIT, com pesos agora disponíveis na Hugging Face e na ModelScope. A série inclui dois modelos (MoE) de mixture-of-experts: V4-Pro com 1,6 biliões de parâmetros totais e 49 mil milhões ativados por token, e V4-Flash com 284 mil milhões de parâmetros totais e 13 mil milhões ativados por token. Ambos suportam uma janela de contexto de 1 milhão de tokens.

A arquitetura traz três melhorias principais: um mecanismo de atenção híbrido que combina atenção esparsa comprimida (CSA) e atenção fortemente comprimida (HCA), que reduz significativamente a sobrecarga do contexto longo — as FLOPs de inferência do V4-Pro para 1M de contexto são apenas 27% das do V3.2, e a cache KV (VRAM para armazenar informação histórica durante a inferência) é apenas 10% da do V3.2; ligações hipernasifold-constrained (mHC) que substituem as ligações residuais tradicionais para melhorar a estabilidade da propagação do sinal entre camadas; e o otimizador Muon para uma convergência de treino mais rápida. O pré-treino usou mais de 32 biliões de tokens de dados.

O pós-treino emprega uma abordagem em duas etapas: primeiro treinar especialistas específicos de domínio via supervised fine-tuning (SFT) e aprendizagem por reforço GRPO, depois fundi-los num único modelo através de distilação online. O V4-Pro-Max (highest inference mode) afirma ser o modelo open-source mais forte, com benchmarks de codificação topo de gama e lacunas significativamente reduzidas face a modelos frontier com código fechado em tarefas de raciocínio e agentes. O V4-Flash-Max atinge desempenho de raciocínio ao nível do Pro com um orçamento computacional suficiente, mas é limitado pela escala de parâmetros em tarefas puras de conhecimento e tarefas complexas de agentes. Os pesos são armazenados em precisão mista FP4+FP8.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Musk testemunha que a xAI usou modelos da OpenAI para treinar o Grok

Elon Musk prestou depoimento na quinta-feira num tribunal federal na Califórnia que a sua empresa de inteligência artificial, a xAI, utilizou parcialmente modelos da OpenAI durante o treino do seu chatbot Grok, segundo a TechCrunch. A admissão representa um reconhecimento público raro por parte de um grande programador de IA de uma prática em crescimento

CryptoFrontier57m atrás

O CEO da Google, Sundar Pichai, revelou que utiliza a IA Gemini para compreender a natureza humana e estabelecer uma comunicação mais autêntica

Pichai afirmou que, antes de reuniões importantes, analisa e prevê o estado mental do interlocutor com base numa perspetiva do Gemini, para melhorar a empatia e uma comunicação mais autêntica. Os agentes de IA também conseguem organizar automaticamente e-mails, agendamentos e resumos, tornando as tarefas do dia-a-dia mais eficientes. Entretanto, estão a emergir plataformas de IA com base na co-criação aberta: tecnologias open source como o Gemini 4 reduzem a barreira de entrada; em paralelo, é sublinhada a necessidade de criar um enquadramento de governação da IA, com participação da esfera política e da sociedade para enfrentar desafios como a cibersegurança, os deepfakes e a sustentabilidade.

ChainNewsAbmedia1h atrás

A OpenAI Lança uma Segurança Avançada de Conta para o ChatGPT

Lançamento de Segurança Avançada da Conta Na quinta-feira, a OpenAI apresentou a Segurança Avançada da Conta, uma nova definição opcional para o ChatGPT, destinada a utilizadores que procuram uma proteção mais forte ou que enfrentam riscos mais elevados de ataques digitais. A empresa disse que a nova funcionalidade foi criada em resposta à forma como as pessoas são

CryptoFrontier1h atrás

A X (Twitter) chega à maior atualização de plataforma publicitária da sua história, com a entrada da xAI e a publicidade baseada em interpretação semântica por IA como elemento central

X anunciou a partir de abril de 2026 o lançamento da maior remodelação da sua plataforma publicitária dos últimos 20 anos, reconstruindo a tecnologia subjacente e integrando xAI. A nova plataforma tem como base uma otimização do desempenho orientada por IA, bem como anúncios semânticos e contextuais, para melhorar a conveniência operacional e o controlo da veiculação. O objetivo é transformar a publicidade em sinais comerciais em contexto imediato, alinhando-se com a estratégia Everything App para se tornar o motor comercial do ecossistema do X.

ChainNewsAbmedia5h atrás

Apoiada pela OpenAI, a 1X abre uma fábrica de 58.000 pés quadrados na Califórnia, com o objetivo de ter 10.000 robôs no primeiro ano

De acordo com a Bloomberg, a 1X Technologies, uma startup de robótica apoiada pela OpenAI e fundada na Noruega, abriu uma fábrica de 58.000 pés quadrados em Hayward, Califórnia, com o objetivo de liderar na produção em massa de robôs humanoides para consumo. A instalação deverá produzir 10.000 robôs no seu

GateNews7h atrás

A Casa Branca prepara um memorando de política de IA que orienta as agências dos EUA a utilizarem múltiplos fornecedores de IA a 30 de abril

De acordo com fontes citadas pela PANews a 30 de abril, responsáveis da Casa Branca estão a redigir um memorando de política de inteligência artificial (IA) abrangente que orienta as agências do governo dos EUA a adotarem vários prestadores de serviços de IA e a evitarem a dependência de um único fornecedor. O memorando também exige que todas as empresas de IA contratadas

GateNews8h atrás
Comentar
0/400
Nenhum comentário