Google DeepMind Executive: Every AI Product Company Should Build Custom Benchmarks

Gate News message, April 27 — Logan Kilpatrick, senior product manager at Google DeepMind and product lead for Google AI Studio, stated on X that every company building AI-based products should establish its own custom benchmarks to measure AI model performance. He described this as a method to make model improvements “disproportionately benefit your company” and urged founders and business leaders to “start tomorrow.”

Most companies currently rely on public leaderboards to select AI models, but these measure general capabilities that often misalign with specific business scenarios. Kilpatrick cited the example of a contract review company most concerned with clause extraction accuracy—a capability absent from public benchmarks, making it impossible to assess model performance on that task. Custom benchmarks offer two key advantages: first, they enable companies to evaluate each model update against their own business tasks and select the model that performs best in their actual use case rather than the highest-ranked model overall; second, they allow companies to share these test sets with model providers, driving continuous optimization in areas that matter to their business.

Kilpatrick noted that companies like Zapier and Sierra are already implementing this approach, stating that “there is a lot of alpha that can be created here.”

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Musk admet que xAI a utilisé la distillation sur des modèles d’OpenAI pendant le quatrième jour du procès

D’après Beating et The Verge, le 4e jour du procès entre Musk et OpenAI, les avocats d’OpenAI ont interrogé sur le point de savoir si xAI avait utilisé la distillation pour améliorer ses modèles à l’aide de la technologie d’OpenAI. Musk a d’abord déclaré que « presque toutes les entreprises d’IA font ça », mais lorsqu’on lui a demandé une réponse directe, a reconnu…

GateNewsIl y a 8m

66,3% des employés américains à hauts revenus utilisent des outils d’IA au travail, selon une enquête de la Réserve fédérale

Selon une enquête de la Réserve fédérale, 66,3 % des employés américains gagnant plus de 200 000 dollars par an ont utilisé des outils d'IA au travail au cours des 12 derniers mois au 1er mai. Dans les tranches de revenus plus faibles, les taux d'utilisation diminuent fortement : 51,6 % pour ceux qui gagnent entre 100 000 et 200 000 dollars, 40,2 % pour ceux qui gagnent entre 50 000 et 100

GateNewsIl y a 27m

xAI lance l’API Grok 4.3 avec une fenêtre de contexte de 1 million de tokens pour 1,25 dollar par million de tokens d’entrée

D’après BlockBeats, xAI a lancé l’API Grok 4.3 le 1er mai. Le nouveau modèle prend en charge une fenêtre de contexte de 1 million de tokens et propose des capacités d’entrée/sortie de texte, multimodales ainsi que des fonctions d’appel d’outils. L’API Grok 4.3 est proposée à 1,25 $ par million d’entrées

GateNewsIl y a 39m

Les géants de la tech américaine s’apprêtent à investir $700B en infrastructure d’IA d’ici 2026, dépassant largement les 105 milliards de dollars de la Chine

D’après le South China Morning Post, les géants américains de la tech devraient investir plus de 700 milliards de dollars dans les infrastructures d’IA cette année, bien au-delà des acteurs chinois. Google, Microsoft, Meta et Amazon représentent la majeure partie de ce total, tandis que Morgan Stanley a estimé que les fournisseurs de cloud chinois dépenseraient environ 105 milliards de dollars…

GateNewsIl y a 44m

Huawei prévoit que ses revenus de puces IA pour 2026 atteindront 12 milliards de dollars, soit une hausse de 60 % par rapport à 2025

Selon Reuters, Huawei s’attend à ce que son chiffre d’affaires de puces d’IA pour 2026 atteigne environ 12 milliards de dollars, soit une hausse d’au moins 60 % par rapport aux 7,5 milliards de dollars en 2025. La plupart des commandes de cette année portent sur le processeur Ascend 950PR, entré en production de masse en mars. L’entreprise prévoit de lancer une

GateNewsIl y a 1h

Nvidia investit dans la startup suédoise de legaltech en IA, Legora, et Jude Law en devient l’ambassadeur de marque mondial

Nvidia investit 50 millions de dollars supplémentaires dans le cadre d'un tour d'extension Series D pour Legora, portant le total des levées de fonds de Legora à 600 millions de dollars, avec une valorisation de 5,6 milliards de dollars. Atlassian, Adams Street Partners et Insight Partners participent. Legora se concentre sur la legaltech IA et propose des outils tels que l'examen automatisé, l'analyse des contrats et la recherche juridique, avec un ARR de plus de 100 millions de dollars ; les effectifs sont passés de 40 à 400. Jude Law devient l'ambassadeur mondial de la marque, avec le slogan publicitaire « Law just got more attractive ».

ChainNewsAbmediaIl y a 1h
Commentaire
0/400
Aucun commentaire