Xiaomi revela detalhes de treinamento do modelo de 1T MiMo-V2-Pro: utiliza milhares de calorias, sem classificação ou prazo.

robot
Geração do resumo em andamento

ME News Notícias, 24 de abril (UTC+8), de acordo com o monitoramento do Beating, o responsável pela equipe do grande modelo da Xiaomi, Luo Fuli, revelou em sua primeira entrevista aprofundada que a base do modelo MiMo-V2-Pro possui um total de 1T de parâmetros, treinada com milhares de GPUs. Ela acredita que, com essa escala de 1T, é possível alcançar um nível próximo ao do Claude Opus 4.6 e obter um ingresso na próxima fase de competição de agentes.
No aspecto técnico, a versão Pro levará a proporção entre atenção global e atenção de janela deslizante ao extremo de 7:1, promovendo uma esparsidade máxima, controlando o custo de inferência de textos longos ao ampliar o número de parâmetros, e continuará usando a arquitetura MTP (previsão de múltiplos tokens) para acelerar a inferência aproveitando o poder de cálculo excedente.
No nível de gestão, na equipe MiMo, composta por cerca de cem pessoas, apenas trinta a quarenta estão diretamente envolvidas na iteração central, a equipe não possui cargos hierárquicos nem divisões claras em grupos ou prazos de entrega. Quando enfrentam problemas de instabilidade, como picos no loss de treinamento, optam por interromper o treinamento para investigação, mesmo que isso signifique parar por uma ou duas semanas e gastar milhões de custos de cálculo.
(Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar