A Microsoft disponibiliza como código aberto o modelo Phi-Ground 4B, superando o OpenAI Operator e o Claude em precisão ao clicar na tela

Segundo Beating, a Microsoft recentemente disponibilizou em código aberto a família de modelos Phi-Ground, projetada para resolver o problema de onde a IA deve clicar em uma tela de computador. A versão de 4 bilhões de parâmetros, combinada com modelos de linguagem maiores para planejamento de instruções, superou a precisão de clique do OpenAI Operator e do Claude Computer Use no benchmark Showdown e ficou em primeiro lugar entre todos os modelos com menos de 100 bilhões de parâmetros em cinco avaliações, incluindo ScreenSpot-Pro.

A equipe treinou com mais de 40 milhões de amostras de dados e descobriu que três técnicas comuns de treinamento usadas em artigos acadêmicos se tornaram ineficazes em escala. A abordagem principal se mostrou simples: gerar coordenadas como números regulares, como “523, 417”. Pesquisas anteriores criaram vocabulários especializados de posição para coordenadas, mas isso não funcionou em escala. A equipe também descobriu que colocar instruções de texto antes das imagens melhora o desempenho, pois os modelos conseguem identificar os alvos ao processar pixels. Além disso, métodos de aprendizado por reforço como DPO melhoraram a precisão mesmo após o fine-tuning.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários