A corrida por chips de IA nos últimos dois anos quase toda girou em torno da HBM, mas, à medida que as aplicações de IA passam do treino de modelos para inferência em grande escala, o próximo gargalo de fornecimento poderá deixar de ser apenas a HBM e passar a ser a HBF (High Bandwidth Flash, memória flash de alta largura de banda). O vencedor do Prémio Turing e professor da UC Berkeley, David Patterson, afirmou, a 30 de abril, em São Francisco, Estados Unidos, que acredita que a HBF muito provavelmente se tornará a tecnologia de memória-chave para a próxima subida rápida da procura — e até para a criação de um novo gargalo.
( O que mudou com a Nvidia Vera Rubin? A análise da era das guerras de memória: SK Hynix, Samsung, Micron, SanDisk )
Porque é que o vencedor do Prémio Turing David Patterson aposta na HBF
A discussão sobre memória para IA tem-se centrado quase sempre na HBM (High Bandwidth Memory, memória de alta largura de banda), mas, à medida que as aplicações de IA passam do treino de modelos para inferência em grande escala, o próximo gargalo de fornecimento poderá deixar de ser apenas a HBM e passar a ser a HBF (High Bandwidth Flash, memória flash de alta largura de banda).
Patterson é uma figura de peso na comunidade de ciência da computação e é visto como um dos importantes arquitetos do RISC. Ao falar do que vem depois da HBM, apontou que, embora a HBF ainda enfrente vários desafios técnicos a resolver, a HBF que empresas como a SK Hynix e a SanDisk estão a promover tem a característica de “fornecer grandes capacidades com menor consumo de energia”. No futuro, a variável central dos sistemas de IA deixará de ser apenas o poder de computação: passará a ser se os dados podem ser armazenados, geridos e disponibilizados de forma eficaz.
O que é a HBF? Empilhar NAND Flash: não para substituir a HBM, mas para dividir trabalho
A maior diferença entre HBF e HBM está nos materiais de memória subjacentes. A HBM empilha DRAM na vertical, para fornecer a capacidade de acesso a dados de alta largura de banda de que GPU e aceleradores de IA necessitam, sendo responsável sobretudo por “alimentar rapidamente os dados às unidades de cálculo”. A HBF, por sua vez, empilha memória não volátil NAND Flash; a sua vantagem central não é a velocidade ao limite, mas sim disponibilizar mais capacidade de dados a custo e consumo de energia mais baixos.
Dito de outra forma, a HBM resolve o problema de “velocidade” durante o processo de cálculo da IA, enquanto a HBF resolve o problema de “capacidade”, que continua a crescer nos sistemas de IA. Por isso, a HBF não é apenas uma substituição da HBM, mas sim uma nova divisão de trabalho na hierarquia de memória. A HBM fica encarregue da troca imediata e de alta velocidade de dados; a HBF fica encarregue das necessidades de armazenamento de grandes volumes de dados intermédios, dados de contexto e dados que são chamados repetidamente ao longo do processo de inferência.
A expansão do mercado de inferência faz com que a procura por HBF venha para a ribalta
A razão pela qual a HBF recebe mais atenção em 2026 é que o foco do mercado de IA está a deslocar-se gradualmente do treino para a inferência. O treino de IA consiste em alimentar o modelo com grandes quantidades de dados para que aprenda parâmetros e padrões; a inferência de IA, por outro lado, é o processo em que, após o treino estar concluído, o modelo gera respostas com base nas entradas do utilizador, executa tarefas, mantém contexto e continua a avaliar.
Em cenários de inferência, a IA não responde apenas a uma pergunta de uma vez. Precisa de manter diálogo anterior, o contexto do trabalho, os resultados das avaliações, o registo de chamadas a ferramentas e até dados intermédios entre tarefas. Estes dados são enormes e precisam de ser lidos e atualizados repetidamente.
O problema é que, se se colocar tudo na HBM, o custo é demasiado elevado e a capacidade não é realista. A HBM é adequada para processar dados de alta velocidade que são necessários imediatamente, mas não é apropriada para suportar todo o contexto e os dados de estado intermédio que são gerados ao longo do processo de inferência. Quando os AI Agent, os modelos de longo contexto, a inferência multimodal e os fluxos de trabalho de IA a nível empresarial se popularizarem, o sistema vai precisar não apenas de memória mais rápida, mas de uma maior “piscina” de dados de alta velocidade. É precisamente por isso que a HBF é vista com bons olhos.
SK Hynix e SNDK estão a impulsionar a normalização; a procura por HBF em 2038 poderá ultrapassar a HBM
Para procurar maior largura de banda, a SK Hynix e a SanDisk colaboraram no desenvolvimento de HBF. Trata-se de uma tecnologia de empilhamento 3D semelhante à HBM, mas usando wafers (bolachas) de NAND, com o objetivo de fornecer várias vezes o throughput de um SSD tradicional, sendo pensada especificamente para inferência em IA.
O professor de engenharia elétrica e eletrónica da KAIST, na Coreia do Sul, Jin Jong-ho também tinha apontado, numa sessão de explicação técnica sobre HBF em fevereiro, que o núcleo da era do PC era a CPU, o da era dos smartphones era o baixo consumo de energia e o da era da IA é a memória. Ele separou claramente os papéis de HBM e HBF: a decisão da velocidade é da HBM, a decisão da capacidade é da HBF. Jin também previu que, a partir de 2038, a procura por HBF poderá ultrapassar a HBM.
A lógica por trás dessa avaliação é que quanto maior for o mercado de inferência de IA, maior será o contexto imediato, os dados históricos e os estados das tarefas que os modelos precisam de processar. Se apenas se tentar expandir com HBM, não só os custos são elevados como também o consumo de energia e a pressão no empacotamento do sistema continuarão a aumentar. Se a HBF conseguir obter avanços em largura de banda, empacotamento, durabilidade e normalização, poderá tornar-se a próxima camada-chave de memória para centros de dados de IA.
Da HBM à HBF: a corrida em IA passa de “calcular mais depressa” para “ter memória e conseguir gerir”
No passado, quando se falava de semicondutores de IA, o foco estava muitas vezes em GPU, processos avançados e fornecimento de HBM. Sobretudo depois do aumento explosivo da procura por servidores de IA da Nvidia, a HBM chegou a ser um indicador-chave para avaliar a competitividade de empresas de memória como SK Hynix, Samsung e Micron. No entanto, a perspetiva de Patterson lembra o mercado de que os gargalos da infraestrutura de IA estão a tornar-se mais complexos.
Quando a IA ainda se encontra na fase de competição do treino de grandes modelos, o foco é alimentar as GPU com memória de maior largura de banda; mas quando a IA entra na fase de inferência em grande escala e em aplicações com Agent, a questão passa a ser: como manter o contexto durante muito tempo? Como guardar o estado das tarefas a baixo custo? Como fazer com que os dados circulem com mais eficiência entre GPU, HBM, SSD, Flash e armazenamento em rede?
Por isso, a próxima corrida de memória para IA pode deixar de ser apenas uma disputa pela capacidade produtiva de HBM e passar a envolver a reorganização de toda a hierarquia de memória. A HBM continua a ser importante, porque determina se os chips de IA conseguem fazer computação em alta velocidade; mas o aparecimento de HBF significa que os sistemas de IA começam a precisar de uma nova camada de dados, algures entre a memória tradicional e a memória de alta largura de banda. Pode não ser a mais rápida, mas poderá encontrar um novo equilíbrio entre capacidade, consumo de energia e custo.
Isto também significa que a próxima palavra-chave da cadeia de fornecimento de IA pode passar de “memória de alta largura de banda” para “memória flash de alta largura de banda”. A HBM resolve o gargalo de computação imediata da IA, enquanto a HBF poderá resolver o gargalo ainda maior de memória de dados na era da inferência.
Este artigo: O gargalo de memória após a HBM é a HBF? Vencedor do Prémio Turing David Patterson: a inferência vai redefinir a arquitetura de armazenamento Primeira publicação em Cadeia de notícias ABMedia.
Related Articles
As ações da Riot disparam 8% após expandir o acordo de data centers com a AMD
Minnesota proíbe ferramentas de imagens íntimas não consensuais com IA, impondo coimas até $500K Fines
Os utilizadores do ChatGPT já podem aceder a subscrições na plataforma OpenClaw, anuncia Sam Altman
xAI lança as vozes personalizadas do Grok, permitindo aos utilizadores clonarem a própria voz de IA em um minuto
Conferência de Desenvolvedores do Código da Anthropic com a Claude 5/6 em São Francisco: transmissão em direto gratuita, registo grátis
A OpenAI divulga dados da primeira semana do lançamento do GPT-5.5: a taxa de crescimento das receitas da API atinge um novo máximo, o Codex duplica