V4-Pro Atinge 67% de Taxa de Aprovação de Código em Teste Interno de Dogfooding, Chegando Perto do Desempenho do Opus 4.5

Mensagem da Gate News, 24 de abril — A V4 divulgou publicamente dados internos de dogfooding do seu modelo V4-Pro. A empresa coletou aproximadamente 200 tarefas reais de engenharia de mais de 50 engenheiros, cobrindo desenvolvimento de funcionalidades, correções de bugs, refatoração e diagnósticos em stacks de tecnologia incluindo PyTorch, CUDA, Rust e C++. Após filtragem rigorosa, 30 tarefas foram mantidas para a avaliação do benchmark.

O V4-Pro-Max alcançou uma taxa de aprovação de código de 67%, superando significativamente o Sonnet 4.5 em 47% e chegando perto do Opus 4.5 em 70%. No entanto, fica atrás do Opus 4.5 Thinking (73%) e do Opus 4.6 Thinking (80%), enquanto supera substancialmente o Haiku 4.5 em 13%.

Em uma pesquisa interna com 85 respondentes, todos os participantes relataram usar o V4-Pro para codificação agentic em fluxos de trabalho diários. 52% endossaram o V4-Pro como seu modelo principal padrão de codificação, 39% tenderam à aprovação, e menos de 9% expressaram desaprovação. Os problemas relatados incluíam erros de baixo nível, interpretação incorreta de prompts ambíguos e comportamento ocasional de excesso de pensamento.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Musk admite que a xAI usou destilação em modelos da OpenAI durante o 4º dia do julgamento

De acordo com Beating e The Verge, no 4º dia do julgamento entre Musk e OpenAI, os advogados da OpenAI questionaram se a xAI havia usado destilação para melhorar seus modelos usando a tecnologia da OpenAI. Musk inicialmente afirmou que “quase todas as empresas de IA fazem isso”, mas, quando pressionado por uma resposta direta, admitiu

GateNews2m atrás

66,3% dos funcionários dos EUA com alta renda usam ferramentas de IA no trabalho, mostra pesquisa do Federal Reserve

De acordo com uma pesquisa do Federal Reserve, 66,3% dos funcionários dos EUA que ganham mais de US$ 200.000 por ano usaram ferramentas de IA no trabalho nos últimos 12 meses, em 1º de maio. Entre faixas de renda mais baixas, as taxas de uso diminuem significativamente: 51,6% para aqueles que ganham US$ 100.000–US$ 200.000, 40,2% para aqueles que ganham US$ 50.000–US$ 100.000,

GateNews21m atrás

xAI lança a API do Grok 4.3 com janela de contexto de 1M tokens a US$ 1,25 por 1 milhão de tokens de entrada

De acordo com a BlockBeats, a xAI lançou a API do Grok 4.3 em 1º de maio. O novo modelo oferece uma janela de contexto de 1 milhão de tokens e conta com entrada/saída de texto, recursos multimodais e funcionalidades de chamada de ferramentas. A API do Grok 4.3 custa US$ 1,25 por 1 milhão de entrada

GateNews33m atrás

Gigantes de tecnologia dos EUA devem gastar $700B em infraestrutura de IA em 2026, superando muito os US$ 105B da China

De acordo com o South China Morning Post, gigantes da tecnologia dos EUA devem gastar mais de US$ 700 bilhões em infraestrutura de IA este ano, superando em muito seus pares chineses. Google, Microsoft, Meta e Amazon respondem pela maior parte desse total, enquanto a Morgan Stanley estimou que os provedores de nuvem chineses gastariam cerca de US$ 105 bill

GateNews39m atrás

A Huawei espera que a receita de chips de IA em 2026 atinja US$ 12 bilhões, acima de 60% em relação a 2025

De acordo com a Reuters, a Huawei espera que a receita de suas chips de IA de 2026 chegue a aproximadamente US$ 12 bilhões, representando pelo menos um aumento de 60% em relação aos US$ 7,5 bilhões de 2025. A maior parte dos pedidos deste ano é para o processador Ascend 950PR, que entrou em produção em massa em março. A empresa planeja lançar um

GateNews1h atrás

NVIDIA investe na startup sueca de legaltech de IA, Legora; Jude Law é o embaixador global da marca

A Nvidia faz um investimento de expansão na rodada Series D da Legora no valor de US$ 50 milhões, elevando o total captado da Legora para US$ 600 milhões e a avaliação para US$ 5,6 bilhões. Atlassian, Adams Street Partners e Insight Partners participam. A Legora se concentra em legaltech de IA, oferecendo ferramentas como revisão automatizada, análise de contratos e pesquisa jurídica. O ARR ultrapassa US$ 100 milhões, e o número de funcionários cresce de 40 para 400. Jude Law se torna o porta-voz global da marca, com o slogan publicitário “Law just got more attractive”.

ChainNewsAbmedia1h atrás
Comentário
0/400
Sem comentários