Message de Gate News, 23 avril — Des chercheurs de Google, dont He Kaiming et Xie Saining, ont publié un article présentant Vision Banana, un modèle polyvalent de compréhension visuelle créé grâce à un réglage fin par instruction léger du modèle de génération d’images Nano Banana Pro (Gemini 3 Pro Image) de l’entreprise. L’innovation clé unifie les sorties de toutes les tâches de vision sous forme d’images RGB, permettant la segmentation, l’estimation de profondeur et la prédiction des normales de surface via la génération d’images, sans architectures ou fonctions de perte spécifiques aux tâches.
En segmentation sémantique, Vision Banana a surpassé le modèle spécialisé SAM 3 de 4,7 points de pourcentage sur Cityscapes ; en segmentation par expressions de référence, il a dépassé SAM 3 Agent. En revanche, il a pris du retard sur SAM 3 en segmentation d’instances. Pour les tâches 3D, l’estimation de profondeur métrique a atteint 0,929 de précision moyenne sur quatre ensembles de données standards, dépassant les 0,918 de Depth Anything V3, en n’utilisant que des données synthétiques sans informations de profondeur réelles ni paramètres de caméra lors de l’inférence. L’estimation des normales de surface a obtenu des résultats à l’état de l’art sur trois bancs d’essai en intérieur.
Le réglage fin a impliqué une quantité minimale de données de tâches visuelles mélangées à l’entraînement initial de génération d’images, préservant les capacités de génération du modèle — les performances étaient conformes au Nano Banana Pro original lors de tests de qualité de génération. L’article propose que le préentraînement à la génération d’images en vision soit analogue au préentraînement de la génération de texte en langage : les modèles apprennent les représentations internes nécessaires à la compréhension d’images pendant la génération, et le réglage fin par instruction ne fait que libérer cette capacité.
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'
avertissement.
Articles similaires
Musk admet que xAI a utilisé la distillation sur des modèles d’OpenAI pendant le quatrième jour du procès
D’après Beating et The Verge, le 4e jour du procès entre Musk et OpenAI, les avocats d’OpenAI ont interrogé sur le fait de savoir si xAI avait utilisé la distillation pour améliorer ses modèles à l’aide de la technologie d’OpenAI. Musk a d’abord déclaré que « presque toutes les entreprises d’IA font cela », mais, une fois qu’on lui a demandé une réponse directe, il a reconnu…
GateNewsIl y a 2m
66,3% des employés américains à hauts revenus utilisent des outils d’IA au travail, selon une enquête de la Réserve fédérale
Selon une enquête de la Réserve fédérale, 66,3 % des employés américains gagnant plus de 200 000 dollars par an ont utilisé des outils d'IA au travail au cours des 12 derniers mois au 1er mai. Dans les tranches de revenus plus faibles, les taux d'utilisation diminuent fortement : 51,6 % pour ceux qui gagnent entre 100 000 et 200 000 dollars, 40,2 % pour ceux qui gagnent entre 50 000 et 100
GateNewsIl y a 21m
xAI lance l’API Grok 4.3 avec une fenêtre de contexte de 1 million de tokens pour 1,25 dollar par million de tokens d’entrée
D’après BlockBeats, xAI a lancé l’API Grok 4.3 le 1er mai. Le nouveau modèle prend en charge une fenêtre de contexte de 1 million de tokens et propose des capacités d’entrée/sortie de texte, multimodales ainsi que des fonctions d’appel d’outils. L’API Grok 4.3 est proposée à 1,25 $ par million d’entrées
GateNewsIl y a 33m
Les géants de la tech américaine s’apprêtent à investir $700B en infrastructure d’IA d’ici 2026, dépassant largement les 105 milliards de dollars de la Chine
D’après le South China Morning Post, les géants américains de la tech devraient investir plus de 700 milliards de dollars dans les infrastructures d’IA cette année, bien au-delà des acteurs chinois. Google, Microsoft, Meta et Amazon représentent la majeure partie de ce total, tandis que Morgan Stanley a estimé que les fournisseurs de cloud chinois dépenseraient environ 105 milliards de dollars…
GateNewsIl y a 39m
Huawei prévoit que ses revenus de puces IA pour 2026 atteindront 12 milliards de dollars, soit une hausse de 60 % par rapport à 2025
Selon Reuters, Huawei s’attend à ce que son chiffre d’affaires de puces d’IA pour 2026 atteigne environ 12 milliards de dollars, soit une hausse d’au moins 60 % par rapport aux 7,5 milliards de dollars en 2025. La plupart des commandes de cette année portent sur le processeur Ascend 950PR, entré en production de masse en mars. L’entreprise prévoit de lancer une
GateNewsIl y a 1h
Nvidia investit dans la startup suédoise de legaltech en IA, Legora, et Jude Law en devient l’ambassadeur de marque mondial
Nvidia investit 50 millions de dollars supplémentaires dans le cadre d'un tour d'extension Series D pour Legora, portant le total des levées de fonds de Legora à 600 millions de dollars, avec une valorisation de 5,6 milliards de dollars. Atlassian, Adams Street Partners et Insight Partners participent. Legora se concentre sur la legaltech IA et propose des outils tels que l'examen automatisé, l'analyse des contrats et la recherche juridique, avec un ARR de plus de 100 millions de dollars ; les effectifs sont passés de 40 à 400. Jude Law devient l'ambassadeur mondial de la marque, avec le slogan publicitaire « Law just got more attractive ».
ChainNewsAbmediaIl y a 1h