Xiaomi revela detalhes de treinamento do modelo 1T MiMo-V2-Pro: milhares de GPUs usadas, sem níveis de trabalho ou prazos

robot
Geração do resumo em andamento

De acordo com o monitoramento da Dongcha Beating, Luo Fuli, chefe da equipe de modelos grandes da Xiaomi, revelou em sua primeira entrevista aprofundada que a base do modelo MiMo-V2-Pro possui um total de 1T de parâmetros, utilizando milhares de GPUs para treinamento. Ela acredita que uma escala de 1T é a linha de base para alcançar um desempenho próximo ao Claude Opus 4.6 e garantir entrada na próxima fase da competição de agentes. Em nível técnico, a versão Pro impulsiona a proporção de atenção global para atenção de janela deslizante para uma proporção esparsa extrema de 7:1, controlando o custo de raciocínio para textos longos enquanto expande a contagem de parâmetros, e continua usando a arquitetura MTP (Previsão de Multi-Token) para aproveitar o poder de computação excedente para inferência acelerada. No lado da gestão, apenas cerca de 30 a 40 membros da equipe MiMo, de cem, estão diretamente envolvidos nas iterações principais, sem níveis de trabalho estabelecidos, divisões claras de grupo ou prazos de entrega. Ao enfrentar problemas numéricos instáveis, como mudanças súbitas na perda de treinamento, a equipe opta por interromper o treinamento para solucionar problemas, mesmo que isso signifique parar por uma ou duas semanas e incorrer em milhões de custos de computação.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar