Resumo: A entrevista com Luo Fuli destaca o Xiaomi MiMo-V2-Pro, um modelo de trilhões de parâmetros, com forte uso de GPU, visando capacidades semelhantes ao Claude Opus 4.6. Ele emprega atenção esparsa extrema com MTP; riscos operacionais incluem uma equipe enxuta e com estrutura insuficiente que interrompe o treinamento quando as perdas aumentam, gerando altos custos.O MiMo-V2-Pro supostamente possui 1T de parâmetros treinados em milhares de GPUs, com foco em desempenho semelhante ao Claude Opus 4.6. Usa atenção esparsa extrema (7:1) com MTP; uma equipe pequena interrompe treinamentos instáveis para solucionar problemas, arriscando milhões em custos.

AirdropBlackHole

2026-04-24 06:31:18

Geração do resumo em andamento

De acordo com o monitoramento da Dongcha Beating, Luo Fuli, chefe da equipe de modelos grandes da Xiaomi, revelou em sua primeira entrevista aprofundada que a base do modelo MiMo-V2-Pro possui um total de 1T de parâmetros, utilizando milhares de GPUs para treinamento. Ela acredita que uma escala de 1T é a linha de base para alcançar um desempenho próximo ao Claude Opus 4.6 e garantir entrada na próxima fase da competição de agentes. Em nível técnico, a versão Pro impulsiona a proporção de atenção global para atenção de janela deslizante para uma proporção esparsa extrema de 7:1, controlando o custo de raciocínio para textos longos enquanto expande a contagem de parâmetros, e continua usando a arquitetura MTP (Previsão de Multi-Token) para aproveitar o poder de computação excedente para inferência acelerada. No lado da gestão, apenas cerca de 30 a 40 membros da equipe MiMo, de cem, estão diretamente envolvidos nas iterações principais, sem níveis de trabalho estabelecidos, divisões claras de grupo ou prazos de entrega. Ao enfrentar problemas numéricos instáveis, como mudanças súbitas na perda de treinamento, a equipe opta por interromper o treinamento para solucionar problemas, mesmo que isso signifique parar por uma ou duas semanas e incorrer em milhões de custos de computação.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
WCTCTradingKingPK
141.88K Popularidade
#
CryptoMarketSeesVolatility
207.53K Popularidade
#
IsraelStrikesIranBTCPlunges
30.92K Popularidade
#
rsETHAttackUpdate
63.12K Popularidade
#
US-IranTalksStall
164.41K Popularidade

Marcar

sitemap

Xiaomi revela detalhes de treinamento do modelo 1T MiMo-V2-Pro: milhares de GPUs usadas, sem níveis de trabalho ou prazos

Tendências

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Marcar