MiMo-V2-Pro base possui 1T de parâmetros, treinando com milhares de GPUs, com o objetivo de se aproximar do Claude Opus 4.6 e obter o ingresso na próxima fase de competição de agentes. No aspecto técnico, levará a atenção global e a atenção de janela deslizante ao extremo, com uma proporção de 7:1 de esparsidade, controlando o custo de inferência de textos longos, e continuará usando a arquitetura MTP para acelerar a inferência. No nível de gestão, a equipe MiMo, com cerca de cem pessoas, tem apenas trinta a quarenta envolvidos diretamente na iteração central, falta de níveis hierárquicos e prazos de entrega claros, e ao encontrar picos de perda de treinamento, interrompem o treinamento para investigação, podendo ficar uma ou duas semanas parados, consumindo milhões de poder de computação.

MeNews

2026-04-24 06:01:33

Geração do resumo em andamento

ME News Notícias, 24 de abril (UTC+8), de acordo com o monitoramento do Beating, o responsável pela equipe do grande modelo da Xiaomi, Luo Fuli, revelou em sua primeira entrevista aprofundada que a base do modelo MiMo-V2-Pro possui um total de 1T de parâmetros, treinada com milhares de GPUs. Ela acredita que, com essa escala de 1T, é possível alcançar um nível próximo ao do Claude Opus 4.6 e obter um ingresso na próxima fase de competição de agentes.
No aspecto técnico, a versão Pro levará a proporção entre atenção global e atenção de janela deslizante ao extremo de 7:1, promovendo uma esparsidade máxima, controlando o custo de inferência de textos longos ao ampliar o número de parâmetros, e continuará usando a arquitetura MTP (previsão de múltiplos tokens) para acelerar a inferência aproveitando o poder de cálculo excedente.
No nível de gestão, na equipe MiMo, composta por cerca de cem pessoas, apenas trinta a quarenta estão diretamente envolvidas na iteração central, a equipe não possui cargos hierárquicos nem divisões claras em grupos ou prazos de entrega. Quando enfrentam problemas de instabilidade, como picos no loss de treinamento, optam por interromper o treinamento para investigação, mesmo que isso signifique parar por uma ou duas semanas e gastar milhões de custos de cálculo.
(Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
WCTCTradingKingPK
144.05K Popularidade
#
CryptoMarketSeesVolatility
211.28K Popularidade
#
IsraelStrikesIranBTCPlunges
30.92K Popularidade
#
rsETHAttackUpdate
63.48K Popularidade
#
US-IranTalksStall
166.2K Popularidade

Marcar

sitemap

Xiaomi revela detalhes de treinamento do modelo de 1T MiMo-V2-Pro: utiliza milhares de calorias, sem classificação ou prazo.

Tendências

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Marcar