Vision Banana do Google: Um modelo de visão unificado supera modelos específicos de tarefa em segmentação e geometria 3D

Mensagem do Gate News, 23 de abril — Pesquisadores do Google, incluindo He Kaiming e Xie Saining, publicaram um artigo que apresenta o Vision Banana, um modelo geral de compreensão visual criado por meio de ajuste fino leve de instruções do modelo de geração de imagem Nano Banana Pro (Gemini 3 Pro ). A principal inovação unifica as saídas de todas as tarefas visuais como imagens RGB, permitindo segmentação, estimativa de profundidade e predição de normais de superfície por meio de geração de imagens, sem arquiteturas ou funções de perda específicas da tarefa.

Na segmentação semântica, o Vision Banana superou o modelo especializado SAM 3 em 4,7 pontos percentuais no Cityscapes; na segmentação por expressão de referência, ele superou o SAM 3 Agent. No entanto, ficou atrás do SAM 3 em segmentação de instâncias. Para tarefas 3D, a estimativa métrica de profundidade alcançou 0,929 de acurácia média em quatro conjuntos de dados padrão, superando os 0,918 do Depth Anything V3, usando apenas dados sintéticos sem informações reais de profundidade ou parâmetros de câmera durante a inferência. A estimativa de normais de superfície obteve resultados de ponta em três benchmarks internos.

O ajuste fino envolveu dados mínimos de tarefas de visão misturados ao treinamento original de geração de imagens, preservando as capacidades de geração do modelo — o desempenho correspondeu ao Nano Banana Pro original nos testes de qualidade de geração. O artigo propõe que o pré-treinamento de geração de imagens em visão é paralelo ao pré-treinamento de geração de texto em linguagem: os modelos aprendem as representações internas necessárias para a compreensão de imagens durante a geração, com o ajuste fino de instruções apenas liberando essa capacidade.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Musk admite que a xAI usou destilação em modelos da OpenAI durante o 4º dia do julgamento

De acordo com a Beating e o The Verge, no 4º dia do julgamento entre Musk e a OpenAI, os advogados da OpenAI questionaram se a xAI usou destilação para aprimorar seus modelos usando a tecnologia da OpenAI. Musk inicialmente afirmou que “quase todas as empresas de IA fazem isso”, mas, quando pressionado por uma resposta direta, reconheceu

GateNews8m atrás

66,3% dos funcionários dos EUA com alta renda usam ferramentas de IA no trabalho, mostra pesquisa do Federal Reserve

De acordo com uma pesquisa do Federal Reserve, 66,3% dos funcionários dos EUA que ganham mais de US$ 200.000 por ano usaram ferramentas de IA no trabalho nos últimos 12 meses, em 1º de maio. Entre faixas de renda mais baixas, as taxas de uso diminuem significativamente: 51,6% para aqueles que ganham US$ 100.000–US$ 200.000, 40,2% para aqueles que ganham US$ 50.000–US$ 100.000,

GateNews27m atrás

xAI lança a API do Grok 4.3 com janela de contexto de 1M tokens a US$ 1,25 por 1 milhão de tokens de entrada

De acordo com a BlockBeats, a xAI lançou a API do Grok 4.3 em 1º de maio. O novo modelo oferece uma janela de contexto de 1 milhão de tokens e conta com entrada/saída de texto, recursos multimodais e funcionalidades de chamada de ferramentas. A API do Grok 4.3 custa US$ 1,25 por 1 milhão de entrada

GateNews39m atrás

Gigantes de tecnologia dos EUA devem gastar $700B em infraestrutura de IA em 2026, superando muito os US$ 105B da China

De acordo com o South China Morning Post, gigantes da tecnologia dos EUA devem gastar mais de US$ 700 bilhões em infraestrutura de IA este ano, superando em muito seus pares chineses. Google, Microsoft, Meta e Amazon respondem pela maior parte desse total, enquanto a Morgan Stanley estimou que os provedores de nuvem chineses gastariam cerca de US$ 105 bill

GateNews45m atrás

A Huawei espera que a receita de chips de IA em 2026 atinja US$ 12 bilhões, acima de 60% em relação a 2025

De acordo com a Reuters, a Huawei espera que a receita de suas chips de IA de 2026 chegue a aproximadamente US$ 12 bilhões, representando pelo menos um aumento de 60% em relação aos US$ 7,5 bilhões de 2025. A maior parte dos pedidos deste ano é para o processador Ascend 950PR, que entrou em produção em massa em março. A empresa planeja lançar um

GateNews1h atrás

NVIDIA investe na startup sueca de legaltech de IA, Legora; Jude Law é o embaixador global da marca

A Nvidia faz um investimento de expansão na rodada Series D da Legora no valor de US$ 50 milhões, elevando o total captado da Legora para US$ 600 milhões e a avaliação para US$ 5,6 bilhões. Atlassian, Adams Street Partners e Insight Partners participam. A Legora se concentra em legaltech de IA, oferecendo ferramentas como revisão automatizada, análise de contratos e pesquisa jurídica. O ARR ultrapassa US$ 100 milhões, e o número de funcionários cresce de 40 para 400. Jude Law se torna o porta-voz global da marca, com o slogan publicitário “Law just got more attractive”.

ChainNewsAbmedia1h atrás
Comentário
0/400
Sem comentários