Após a limitação de memória para IA após a HBM, o gargalo de memória será o HBF? Vencedor do Prémio Turing David Patterson: a inferência irá redefinir a arquitectura de armazenamento

A corrida por chips de IA nos últimos dois anos quase toda girou em torno da HBM, mas, à medida que as aplicações de IA passam do treino de modelos para inferência em grande escala, o próximo gargalo de fornecimento poderá deixar de ser apenas a HBM e passar a ser a HBF (High Bandwidth Flash, memória flash de alta largura de banda). O vencedor do Prémio Turing e professor da UC Berkeley, David Patterson, afirmou, a 30 de abril, em São Francisco, Estados Unidos, que acredita que a HBF muito provavelmente se tornará a tecnologia de memória-chave para a próxima subida rápida da procura — e até para a criação de um novo gargalo.

( O que mudou com a Nvidia Vera Rubin? A análise da era das guerras de memória: SK Hynix, Samsung, Micron, SanDisk )

Porque é que o vencedor do Prémio Turing David Patterson aposta na HBF

A discussão sobre memória para IA tem-se centrado quase sempre na HBM (High Bandwidth Memory, memória de alta largura de banda), mas, à medida que as aplicações de IA passam do treino de modelos para inferência em grande escala, o próximo gargalo de fornecimento poderá deixar de ser apenas a HBM e passar a ser a HBF (High Bandwidth Flash, memória flash de alta largura de banda).

Patterson é uma figura de peso na comunidade de ciência da computação e é visto como um dos importantes arquitetos do RISC. Ao falar do que vem depois da HBM, apontou que, embora a HBF ainda enfrente vários desafios técnicos a resolver, a HBF que empresas como a SK Hynix e a SanDisk estão a promover tem a característica de “fornecer grandes capacidades com menor consumo de energia”. No futuro, a variável central dos sistemas de IA deixará de ser apenas o poder de computação: passará a ser se os dados podem ser armazenados, geridos e disponibilizados de forma eficaz.

O que é a HBF? Empilhar NAND Flash: não para substituir a HBM, mas para dividir trabalho

A maior diferença entre HBF e HBM está nos materiais de memória subjacentes. A HBM empilha DRAM na vertical, para fornecer a capacidade de acesso a dados de alta largura de banda de que GPU e aceleradores de IA necessitam, sendo responsável sobretudo por “alimentar rapidamente os dados às unidades de cálculo”. A HBF, por sua vez, empilha memória não volátil NAND Flash; a sua vantagem central não é a velocidade ao limite, mas sim disponibilizar mais capacidade de dados a custo e consumo de energia mais baixos.

Dito de outra forma, a HBM resolve o problema de “velocidade” durante o processo de cálculo da IA, enquanto a HBF resolve o problema de “capacidade”, que continua a crescer nos sistemas de IA. Por isso, a HBF não é apenas uma substituição da HBM, mas sim uma nova divisão de trabalho na hierarquia de memória. A HBM fica encarregue da troca imediata e de alta velocidade de dados; a HBF fica encarregue das necessidades de armazenamento de grandes volumes de dados intermédios, dados de contexto e dados que são chamados repetidamente ao longo do processo de inferência.

A expansão do mercado de inferência faz com que a procura por HBF venha para a ribalta

A razão pela qual a HBF recebe mais atenção em 2026 é que o foco do mercado de IA está a deslocar-se gradualmente do treino para a inferência. O treino de IA consiste em alimentar o modelo com grandes quantidades de dados para que aprenda parâmetros e padrões; a inferência de IA, por outro lado, é o processo em que, após o treino estar concluído, o modelo gera respostas com base nas entradas do utilizador, executa tarefas, mantém contexto e continua a avaliar.

Em cenários de inferência, a IA não responde apenas a uma pergunta de uma vez. Precisa de manter diálogo anterior, o contexto do trabalho, os resultados das avaliações, o registo de chamadas a ferramentas e até dados intermédios entre tarefas. Estes dados são enormes e precisam de ser lidos e atualizados repetidamente.

O problema é que, se se colocar tudo na HBM, o custo é demasiado elevado e a capacidade não é realista. A HBM é adequada para processar dados de alta velocidade que são necessários imediatamente, mas não é apropriada para suportar todo o contexto e os dados de estado intermédio que são gerados ao longo do processo de inferência. Quando os AI Agent, os modelos de longo contexto, a inferência multimodal e os fluxos de trabalho de IA a nível empresarial se popularizarem, o sistema vai precisar não apenas de memória mais rápida, mas de uma maior “piscina” de dados de alta velocidade. É precisamente por isso que a HBF é vista com bons olhos.

SK Hynix e SNDK estão a impulsionar a normalização; a procura por HBF em 2038 poderá ultrapassar a HBM

Para procurar maior largura de banda, a SK Hynix e a SanDisk colaboraram no desenvolvimento de HBF. Trata-se de uma tecnologia de empilhamento 3D semelhante à HBM, mas usando wafers (bolachas) de NAND, com o objetivo de fornecer várias vezes o throughput de um SSD tradicional, sendo pensada especificamente para inferência em IA.

O professor de engenharia elétrica e eletrónica da KAIST, na Coreia do Sul, Jin Jong-ho também tinha apontado, numa sessão de explicação técnica sobre HBF em fevereiro, que o núcleo da era do PC era a CPU, o da era dos smartphones era o baixo consumo de energia e o da era da IA é a memória. Ele separou claramente os papéis de HBM e HBF: a decisão da velocidade é da HBM, a decisão da capacidade é da HBF. Jin também previu que, a partir de 2038, a procura por HBF poderá ultrapassar a HBM.

A lógica por trás dessa avaliação é que quanto maior for o mercado de inferência de IA, maior será o contexto imediato, os dados históricos e os estados das tarefas que os modelos precisam de processar. Se apenas se tentar expandir com HBM, não só os custos são elevados como também o consumo de energia e a pressão no empacotamento do sistema continuarão a aumentar. Se a HBF conseguir obter avanços em largura de banda, empacotamento, durabilidade e normalização, poderá tornar-se a próxima camada-chave de memória para centros de dados de IA.

Da HBM à HBF: a corrida em IA passa de “calcular mais depressa” para “ter memória e conseguir gerir”

No passado, quando se falava de semicondutores de IA, o foco estava muitas vezes em GPU, processos avançados e fornecimento de HBM. Sobretudo depois do aumento explosivo da procura por servidores de IA da Nvidia, a HBM chegou a ser um indicador-chave para avaliar a competitividade de empresas de memória como SK Hynix, Samsung e Micron. No entanto, a perspetiva de Patterson lembra o mercado de que os gargalos da infraestrutura de IA estão a tornar-se mais complexos.

Quando a IA ainda se encontra na fase de competição do treino de grandes modelos, o foco é alimentar as GPU com memória de maior largura de banda; mas quando a IA entra na fase de inferência em grande escala e em aplicações com Agent, a questão passa a ser: como manter o contexto durante muito tempo? Como guardar o estado das tarefas a baixo custo? Como fazer com que os dados circulem com mais eficiência entre GPU, HBM, SSD, Flash e armazenamento em rede?

Por isso, a próxima corrida de memória para IA pode deixar de ser apenas uma disputa pela capacidade produtiva de HBM e passar a envolver a reorganização de toda a hierarquia de memória. A HBM continua a ser importante, porque determina se os chips de IA conseguem fazer computação em alta velocidade; mas o aparecimento de HBF significa que os sistemas de IA começam a precisar de uma nova camada de dados, algures entre a memória tradicional e a memória de alta largura de banda. Pode não ser a mais rápida, mas poderá encontrar um novo equilíbrio entre capacidade, consumo de energia e custo.

Isto também significa que a próxima palavra-chave da cadeia de fornecimento de IA pode passar de “memória de alta largura de banda” para “memória flash de alta largura de banda”. A HBM resolve o gargalo de computação imediata da IA, enquanto a HBF poderá resolver o gargalo ainda maior de memória de dados na era da inferência.

Este artigo: O gargalo de memória após a HBM é a HBF? Vencedor do Prémio Turing David Patterson: a inferência vai redefinir a arquitetura de armazenamento Primeira publicação em Cadeia de notícias ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

As ações da Riot disparam 8% após expandir o acordo de data centers com a AMD

As acções da Riot Platforms subiram 8% após a expansão da sua parceria com a AMD para centros de dados e a melhoria dos termos de financiamento, reflectindo a mudança estratégica do minerador de bitcoin para a inteligência artificial e os centros de dados

GateNews2h atrás

Minnesota proíbe ferramentas de imagens íntimas não consensuais com IA, impondo coimas até $500K Fines

De acordo com a Decrypt, o legislativo de Minnesota aprovou um projecto-lei a 2 de Maio que proíbe sítios Web e aplicações de fornecerem ferramentas de IA que gerem imagens íntimas não consensuais de indivíduos identificáveis. A lei impede as plataformas de permitirem que os utilizadores acedam ou utilizem tais ferramentas de “deepfake” e proíbe

GateNews4h atrás

Os utilizadores do ChatGPT já podem aceder a subscrições na plataforma OpenClaw, anuncia Sam Altman

De acordo com o anúncio de Sam Altman hoje, os utilizadores do ChatGPT já podem iniciar sessão na plataforma de agentes OpenClaw usando as suas contas do ChatGPT e aceder diretamente às suas subscrições existentes do ChatGPT na plataforma.

GateNews5h atrás

xAI lança as vozes personalizadas do Grok, permitindo aos utilizadores clonarem a própria voz de IA em um minuto

De acordo com Beating, a xAI lançou o Grok Custom Voices e a Voice Library, permitindo aos utilizadores gravar um minuto de áudio na consola da xAI para gerar um custom voice_id para uso com as APIs do Grok TTS e Voice Agent. A funcionalidade suporta aplicações incluindo agentes de apoio ao cliente, criação de conteúdos,

GateNews6h atrás

Conferência de Desenvolvedores do Código da Anthropic com a Claude 5/6 em São Francisco: transmissão em direto gratuita, registo grátis

A Anthropic anunciou a 1 de maio que a primeira conferência de programadores “Code with Claude” abrirá em 6 de maio, em São Francisco, e será, pela primeira vez, expandida a três cidades em digressão: Londres (19/05) e Tóquio (10/06). As vagas presenciais para as três sessões principais serão atribuídas por sorteio e já estão todas esgotadas, mas o registo para streaming continua aberto a todos. Para fazer face à sobrecarga da procura presencial, a organização acrescentou uma sessão “Extended” adicional em São Francisco, a 7/05, desenhada especificamente para programadores independentes e fundadores em fase inicial. Três etapas da digressão: 6/05 em São Francisco, 19/05 em Londres, 10/06 em Tóquio “Code with Claude” é uma conferência de programadores organizada pela Anthropic, com a sessão de São Francisco a ser já a segunda edição. O conteúdo das 3 sessões é o mesmo: durante um dia inteiro, haverá workshops presenciais, demonstrações das funcionalidades mais recentes e interações com o Claude em várias

ChainNewsAbmedia6h atrás

A OpenAI divulga dados da primeira semana do lançamento do GPT-5.5: a taxa de crescimento das receitas da API atinge um novo máximo, o Codex duplica

OpenAI 1 de Maio publicou, na sua conta oficial, 3 dados após uma semana do lançamento do GPT-5.5: autoavaliou-se como “o melhor desempenho de sempre na geração de conteúdos”, a velocidade de crescimento da receita da API foi mais do dobro da de qualquer outra apresentação de um modelo anterior e o Codex duplicou a receita em menos de 7 dias. A OpenAI atribuiu a causa à procura crescente, por parte das empresas, por ferramentas de agentic coding (codificação orientada por agentes), alinhada com o mesmo ritmo de produto em que, a 30 de Abril, o GPT-5.5-Cyber entrou em confronto com o Anthropic Mythos. 3 itens dos dados divulgados: velocidade de receita da API a dobrar, Codex em 7 dias a duplicar, melhor desempenho de sempre Os 3 números-chave que a OpenAI divulgou provêm de publicações oficiais no X, sem anexar relatórios financeiros detalhados: primeiro, o GPT-5.5 é “o que apresenta o crescimento de receitas mais forte de sempre” da mé

ChainNewsAbmedia6h atrás
Comentar
0/400
Nenhum comentário