Notícia do Gate, 24 de Abril — A DeepSeek V4 publicou resultados de avaliações de raciocínio matemático formal, obtendo uma pontuação perfeita de 120/120 no Putnam-2025, empatando com a Axiom pelo primeiro lugar.
No regime prático com LeanExplore e amostragem condicionada, o V4-Flash-Max marcou 81.00 no benchmark Putnam-200 Pass@8, superando significativamente o Seed-2.0-Prover (35.50), o Gemini 3 Pro (26.50) e o Seed-1.5-Prover (26.50). Os resultados do regime de fronteira mostraram o V4 à frente do Seed-1.5-Prover (110/120) e do Aristotle (100/120).
O V4 utiliza uma abordagem híbrida de raciocínio formal-informal: o raciocínio informal gera soluções candidatas em linguagem natural, a auto-verificação filtra os resultados e um agente formal completa provas rigorosas no Lean. Os resultados do regime de fronteira usaram escalamento computacional em grande escala, enquanto as pontuações do regime prático reflectem melhor as capacidades padrão de implementação.
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a
Isenção de responsabilidade.
Related Articles
Avaliação AISI: as capacidades de ataque à rede do GPT-5,5 estão ao mesmo nível das do Anthropic Mythos
AISI divulgou em maio uma avaliação das capacidades de ciberataque do GPT-5.5: dificuldade Expert 71,4%, Mythos Preview 68,6%; a diferença está dentro da margem de erro, pelo que fica empatado. O GPT-5.5 tornou-se, depois do Mythos, o segundo sistema capaz de concluir automaticamente as 32 etapas de uma invasão empresarial de “The Last Ones”. Foi também detetado um universal jailbreak, que pode ser desenvolvido em cerca de 6 horas e contornar a filtragem de consultas maliciosas. No futuro, será acompanhado o calendário da próxima ronda de avaliações e a atualização da OpenAI a este respeito.
ChainNewsAbmedia32m atrás
Pentágono assina contratos de implantação de rede militar encriptada e confidencial com 7 empresas líderes de IA: Anthropic continua excluída
O Departamento de Defesa dos EUA anunciou em maio que celebrou contratos militares de redes confidenciais com sete empresas, incluindo a SpaceX, a OpenAI, a Google, a NVIDIA, a Reflection e a Microsoft e a Amazon Web Services, tendo ainda juntado a Oracle para passar a ser a 8.ª. O contrato permite executar modelos nos níveis mais altos de confidencialidade Impact Level 6/7, com foco em três grandes aplicações: integração de dados, decisões de operações e perceção da situação no campo de batalha, sublinhando a redução de riscos e a evitação do bloqueio a fornecedores. A Anthropic foi incluída numa lista negra por recusar barreiras de segurança para o Exército e não obteve assinatura. A AMD não foi incluída diretamente, sendo as GPU fornecidas por empresas como a NVIDIA. Acompanhar, de seguida, se a Anthropic ceder e qual será o papel dos novos selecionados, como a Reflection.
ChainNewsAbmedia34m atrás
A Cerebras mira o $4B IPO, avaliada em ~40 mil milhões de dólares
O fabricante de chips de IA Cerebras Systems, sediado em Sunnyvale, Califórnia, está a tentar angariar até 4 mil milhões de dólares num IPO que poderia valorizar a empresa em aproximadamente 40 mil milhões de dólares, segundo a Bloomberg. A divulgação formal poderá começar logo a partir de 4 de maio, com bancos a receberem mais de 10 mil milhões de dólares em indicações de
CryptoFrontier36m atrás
Empresas chinesas de IA consideram desmontar estruturas “red-chip” na sequência da suspensão da aquisição de Manus pela Meta
Segundo Beating, a Comissão Nacional de Desenvolvimento e Reforma da China suspendeu a aquisição de 2 mil milhões de dólares da Meta da empresa de agentes de IA Manus, levando a Comissão Reguladora de Valores Mobiliários da China a apertar a aprovação para listagens de IPO em Hong Kong por empresas de red-chip (empresas chinesas que detêm ativos domésticos) th
GateNews2h atrás
Musk Conclui Depoimento de Três Dias no Processo da OpenAI, Cita uma Alegação de Danos de 130-150 mil milhões de dólares
De acordo com vários relatos da comunicação social, Elon Musk concluiu três dias de depoimento no seu processo contra a OpenAI, nos dias 28 a 30 de abril, com um depoimento acumulado superior a 7 horas. Musk, que co-fundou a OpenAI em 2015 com um investimento inicial de 38 milhões de dólares, alegou que a empresa abandonou a sua missão sem fins lucrativos m
GateNews2h atrás
A Meta adquire a startup de IA robótica Assured Robot Intelligence em 1 de maio
De acordo com a Bloomberg, a Meta adquiriu a Assured Robot Intelligence, uma startup de robótica e IA, com escritórios em San Diego e em Nova Iorque, a 1 de maio. A equipa adquirida, incluindo os cofundadores Lerrel Pinto e Xiaolong Wang, vai integrar a Meta Superintelligence Labs e trabalhar com o Meta Robotics Studio. Financeira
GateNews2h atrás