22 de junho de 2026: As ações de empresas norte-americanas de semicondutores registaram uma subida generalizada — o Índice de Semicondutores de Filadélfia avançou 6,42% num único dia. A Intel disparou mais de 10% após o anúncio de uma parceria de fabrico de chips com a Apple. Os ADR da TSMC subiram 6,94%, encerrando a sessão nos 462,12 $, e a Nvidia valorizou quase 3%. Este movimento de mercado reflete uma mudança acelerada no setor: a procura de computação em IA está a passar de uma lógica orientada para o treino para uma lógica orientada para a inferência.
A análise do setor revela que a inferência representa agora dois terços da procura total de computação em IA, face a cerca de um terço em 2023, prevendo-se que atinja entre 70% e 85% até 2028–2030. Esta alteração estrutural está a redefinir o principal campo de batalha da competição entre chips — de "quem tem a GPU mais rápida para treino" para "quem oferece o chip com o menor custo total de inferência e maior capacidade de processamento".
O mercado global de chips de inferência em IA está avaliado em 85,4 mil milhões $ em 2024 e prevê-se que cresça de 105,47 mil milhões $ em 2025 para 570,77 mil milhões $ até 2033, com uma taxa de crescimento anual composta (CAGR) de 23,5% durante o período em análise. Só o mercado de chips de inferência em IA na cloud está estimado em 102,19 mil milhões $ em 2025, devendo atingir 118,9 mil milhões $ em 2026 e podendo chegar aos 320,98 mil milhões $ até 2032. Paralelamente, o mercado global de chipsets de IA de edge (incluindo inferência e treino) deverá expandir-se de 34,4 mil milhões $ em 2026 para 96 mil milhões $ até 2031.
Durante este ciclo de expansão, o equilíbrio de forças entre tipos de chips está a alterar-se de forma subtil mas significativa. As GPUs mantêm-se como o principal player do mercado, sustentadas pela procura tanto de treino como de inferência, e prevê-se que mantenham uma CAGR de 20% até 2031. No entanto, os ASIC de IA são vistos por muitas instituições como o segmento de crescimento mais rápido. Analistas da JPMorgan estimam que o mercado de ASIC digitais de IA atingirá entre 60 e 70 mil milhões $ em 2026, com uma CAGR superior a 40–50% nos próximos anos.
Ainda mais relevante é o regresso dos CPUs. Nos últimos três anos, os CPUs desempenharam um papel secundário nas narrativas sobre IA, mas a explosão da procura por inferência está a transformar este panorama.
Porque é que os CPUs estão a regressar ao centro das atenções
A inferência e o treino em IA diferem fundamentalmente na lógica computacional. O treino envolve operações massivas de matrizes em paralelo — biliões de cálculos em vírgula flutuante executados simultaneamente em milhares de núcleos de GPU, domínio onde as GPUs se destacam. A inferência, especialmente em IA agentica, implica orquestração de tarefas, ativação de ferramentas, raciocínio lógico em múltiplos passos e tomada de decisões sequencial. Estes workloads dependem fortemente de controlo lógico complexo e processamento serial, áreas em que os CPUs são particularmente eficazes.
Um estudo conjunto da Georgia Tech e da Intel concluiu que, em cenários de IA agentica, entre 50% e 90% da latência provém do CPU, e não do acelerador de computação — porque os modelos de grande dimensão têm de chamar plugins, realizar pesquisas web e gerir lógica multi-etapas, tudo controlado pelo CPU. A própria Nvidia reconheceu esta realidade em março de 2026: o executivo Dion Harris afirmou publicamente, "O CPU está a tornar-se o gargalo nos workflows de IA" — uma admissão surpreendente de uma empresa construída com base na ideia de que "as GPUs são os únicos chips de que a IA precisa".
As alterações nas proporções de configuração evidenciam esta tendência. No treino de IA, a relação CPU-GPU é normalmente de 1:8, com as GPUs a suportarem a maior parte do processamento. Mas na era da inferência, a TrendForce reporta que esta relação está a estreitar-se rapidamente para valores entre 1:1 e 1:2. O CEO da Intel, Pat Gelsinger, referiu na call de resultados do 1.º trimestre de 2026 que workloads de treino exigem habitualmente 7–8 GPUs por CPU, mas workloads de inferência reduziram para 3–4 GPUs por CPU, com a possibilidade de evoluir para um equilíbrio de 1:1.
Recorrendo às estimativas do CEO da Nvidia, Jensen Huang: cada data center de escala GW necessita de cerca de 300 000 GPUs Rubin e, com base em 136 núcleos por CPU ARM, cerca de 221 000 CPUs por GW. Isto estabelece uma nova relação CPU-GPU de aproximadamente 1:1,4. Comparando com a era dominada pelas GPUs, o estatuto do CPU aumentou significativamente.
O fosso das GPUs e os desafios dos workloads de inferência
Apesar do regresso dos CPUs, as GPUs mantêm uma posição insubstituível na inferência em IA, graças às suas vantagens em largura de banda de memória e capacidade de processamento paralelo.
Durante a inferência de LLM, a geração de cada token exige a leitura de centenas de milhões a dezenas de milhares de milhões de parâmetros — uma tarefa clássica intensiva em memória. Os CPUs recorrem a memória DDR do sistema, normalmente com largura de banda de 50–100 GB/s. As GPUs utilizam memória GDDR6X ou HBM, com largura de banda superior a 800 GB/s; GPUs topo de gama com HBM2e podem atingir 1,5 TB/s, 20 vezes mais do que os CPUs. Na inferência do modelo Llama 3.1 8B, soluções com CPU entregam apenas 819 tokens/s por tarefa, enquanto um cluster de 8 GPUs alcança 46 841 tokens/s. À medida que aumentam os pedidos simultâneos, o desempenho do CPU desce drasticamente de 819 tokens/s para 257 tokens/s, enquanto o cluster de 8 GPUs praticamente não sofre degradação.
Em termos de densidade de computação, as GPUs oferecem milhares de núcleos CUDA para paralelização, suportam formatos de baixa precisão como FP4/FP8 e fornecem centenas de TFLOPS. Os CPUs disponibilizam normalmente computação FP32 na faixa de 1–10 TFLOPS.
Estes dados mostram que, para cenários de inferência de elevado throughput e elevada concorrência — como serviços de IA em cloud de grande escala — as GPUs continuam a ser a solução ideal. O domínio da Nvidia neste campo permanece incontestado. Segundo a SemiAnalysis, a Nvidia detinha 92% da quota de mercado de chips de treino em IA e 78% de chips de inferência no 1.º trimestre de 2026. A IDC estima que a Nvidia controla cerca de 81% do mercado de chips de IA. O mercado de aceleradores de IA deverá atingir 160 mil milhões $ em 2025 e ultrapassar 200 mil milhões $ em 2026, com a inferência a representar dois terços do investimento.
No entanto, a quota de mercado das GPUs na inferência enfrenta múltiplas pressões — desde o regresso dos CPUs, à concorrência de ASIC especializados e aos fatores de custo prático.
Contraofensiva dos fornecedores de CPUs na inferência
A revalorização dos CPUs na inferência traduziu-se em impulso mensurável no mercado.
O mercado de processadores para data centers está a registar um crescimento acelerado, impulsionado pela crescente procura de workloads de IA generativa. Prevê-se que o tamanho do mercado aumente de 215 mil milhões $ em 2025 para 656 mil milhões $ até 2031. A Guohai Securities assinala que os data centers de hiperescala estão a entrar num "ciclo de atualização", com envios de CPUs para servidores a crescerem 25% em 2026.
A AMD destaca-se como beneficiária desta tendência. A procura de servidores de IA impulsionou os envios de CPUs EPYC, com a quinta geração Turin a conquistar uma quota significativa no mercado de CPUs para servidores. O negócio de CPUs para servidores da AMD deverá crescer pelo menos 50% em 2026. Analistas da Bernstein preveem que as vendas dos processadores EPYC de referência possam subir 30% em 2026. No início de 2026, a Intel detinha cerca de 60% do mercado de CPUs para data centers, a AMD cerca de 24% e a Nvidia cerca de 6%. A AMD compete também no mercado de GPUs para IA com os seus aceleradores Instinct, conferindo-lhe uma posição dual única na era da inferência.
A Intel está igualmente a ajustar a sua estratégia. Na Computex em junho de 2026, o novo CEO Pat Gelsinger anunciou o regresso dos CPUs ao protagonismo na era da inferência, aproveitando a tecnologia de processo 18A e arquiteturas desacopladas à escala de rack. A infraestrutura de IA está a passar de uma lógica de "compra única" para uma montagem "estilo Lego". Os processadores Xeon da Intel integram Advanced Matrix Extensions (AMX), acelerando a inferência para modelos de linguagem de grande dimensão com parâmetros pequenos a médios, mesmo sem GPUs ou outros aceleradores de IA.
A mudança mais simbólica vem da própria Nvidia. A empresa que definiu a era da IA com GPUs lançou em 2026 as linhas de produtos Grace e Vera de CPUs, sendo os CPUs Vera concebidos especificamente para workloads de inferência e IA agentica. A Nvidia prevê que o seu negócio de CPUs atinja receitas de 20 mil milhões $ em 2026. A Nvidia e a Arm lançaram também produtos de CPUs independentes em 2026, marcando a entrada oficial do gigante das GPUs no universo dos CPUs.
ASICs e chips dedicados: o surgimento de uma terceira via
Para além da dicotomia GPU-CPU, os ASICs (circuitos integrados de aplicação específica) estão a emergir como a variável de crescimento mais rápido no mercado de inferência.
A TD Cowen prevê que a quota de mercado dos aceleradores comerciais desça de cerca de 91% em 2025 para 75% em 2030, enquanto os ASIC personalizados subirão de 9% para 25%. Os envios de servidores ASIC deverão crescer 44,6% em 2026, face a um crescimento de 16,1% nos envios de servidores GPU — apenas um terço do ritmo dos ASICs.
Os fornecedores de cloud de hiperescala estão a acelerar o desenvolvimento de chips de inferência personalizados. O Google TPU, AWS Inferentia, Meta MTIA e o LPU (Language Processing Unit) da Groq são todos chips ASIC otimizados para inferência. As receitas de IA da Broadcom atingiram 10,8 mil milhões $ no segundo trimestre de 2026, um aumento de 143% face ao período homólogo, com guidance anual de IA nos 56 mil milhões $, um crescimento de 180%. A Broadcom deverá captar cerca de 60% do mercado de chips de IA personalizados.
Esta tendência sinaliza uma mudança no mercado de chips de inferência, de um modelo de "domínio das GPUs de uso geral" para um panorama diversificado de "GPU + CPU + ASIC". As GPUs processam treino intensivo e inferência de grande escala, os CPUs gerem a orquestração de tarefas e o controlo do sistema, e os ASICs oferecem eficiência energética extrema para workloads de inferência específicos.
Estrutura de custos e a transformação da economia da inferência
No final, a escolha de chips para inferência resume-se a uma questão central: o custo por milhão de tokens.
Durante o treino, a precisão do modelo e o tempo de treino são os principais critérios, e a tolerância ao custo é superior. Na inferência, porém, trata-se de uma atividade contínua e de elevada frequência — cada chamada à API e cada pedido do utilizador implica custos diretos. Isto desloca a competição entre chips de "performance absoluta" para "throughput efetivo por unidade de custo".
As soluções com GPU exigem um investimento inicial de hardware mais elevado. Por exemplo, o AMD MI300X é vendido entre 10 000 $ e 15 000 $, enquanto o H100 da Nvidia oscila entre 25 000 $ e 40 000 $. Ainda assim, as GPUs proporcionam custos de computação por unidade inferiores — instâncias de GPU on-demand em fornecedores de cloud geram tokens a um custo por segundo 40%–60% menor do que instâncias de CPU. Os CPUs são vantajosos em cenários de tarefa única, baixa concorrência e baixa latência, pois não requerem investimento adicional em hardware.
No entanto, à medida que a inferência escala, as soluções com CPU enfrentam um aumento rápido dos custos marginais. Com o crescimento dos pedidos simultâneos, os CPUs têm de agendar tarefas por rotação de fatias temporais, com a sobrecarga de troca de contexto a crescer exponencialmente. Isto significa que, para implementações de inferência de grande escala, o investimento inicial elevado em soluções de GPU ou ASIC acaba por oferecer um ROI superior a longo prazo, graças ao maior throughput e menor custo por unidade.
Conclusão
O aumento da procura de inferência de um terço para dois terços da computação em IA reflete uma mudança fundamental na competição da indústria de chips.
Para a Nvidia, o seu quase-monopólio no mercado de treino (cerca de 90% de quota) dificilmente será desafiado a curto prazo, mas a batalha pela quota incremental de mercado de inferência irá intensificar-se. A New Street Research apresenta a previsão mais agressiva: a quota de inferência da Nvidia poderá cair para 20%–30% até 2028. Mesmo a previsão mais conservadora da Bloomberg Intelligence — de que a Nvidia manterá 70%–75% de quota até 2030 — reconhece que o crescimento dos envios de ASIC supera largamente o das GPUs.
Para a AMD e a Intel, o ressurgimento da procura por CPUs na era da inferência constitui uma oportunidade estrutural. A estratégia dual da AMD com CPUs EPYC e GPUs Instinct, e as iterações contínuas dos processadores Xeon da Intel com tecnologia de processo 18A, visam aproveitar esta janela.
Para fornecedores de cloud e developers de aplicações de IA, mais opções de chips significam maiores oportunidades de otimização de custos. De GPUs de uso geral a ASICs personalizados, passando pela inferência em CPU e aceleração em GPU, a escolha de hardware dependerá cada vez mais das especificidades de cada workload — dimensão do modelo, requisitos de latência, concorrência e orçamento.
A procura de computação para inferência em IA está a crescer mais rapidamente do que para treino. Esta transição de treino para inferência está a transformar toda a cadeia do setor, desde o design de chips à arquitetura de data centers. As GPUs não perderão o seu lugar, mas já não são a única resposta.




