Message de Gate News, 22 avril — Le doctorant de Princeton Yifan Zhang a divulgué sur X les spécifications techniques complètes de DeepSeek V4, après un aperçu le 19 avril. V4 affiche 1,6 trillion de paramètres au total et une variante légère, V4-Lite, avec 285 milliards de paramètres.
Le modèle emploie le mécanisme d’attention DSA2, qui combine l’ancienne attention DSA (DeepSeek Sparse Attention) de DeepSeek issue de la V3.2 et la NSA (Native Sparse Attention) avec des embeddings de tête de dimension 512, associée à l’attention à requêtes multiples clairsemées (MQA) et à l’attention à fenêtre glissante (SWA). La couche MoE (Mixture of Experts) contient 384 experts avec 6 experts activés par passe avant, en utilisant le méga-kernel MoE fusionné. Les connexions résiduelles utilisent l’architecture Hyper-Connections.
Les détails d’entraînement révélés pour la première fois incluent l’utilisation de l’optimiseur Muon (applying Newton-Schulz orthogonalization to momentum updates), une fenêtre de contexte de préentraînement de 32K tokens, et GRPO (Group Relative Policy Optimization) avec correction par divergence KL pendant l’apprentissage par renforcement. La fenêtre de contexte finale s’étend jusqu’à 1 million de tokens. Le modèle est text-only.
Zhang n’est pas employé par DeepSeek, et l’entreprise n’a fait aucun commentaire officiel sur les informations divulguées.
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'
avertissement.
Articles similaires
Musk admet que xAI a utilisé la distillation sur des modèles d’OpenAI pendant le quatrième jour du procès
D’après Beating et The Verge, le 4e jour du procès entre Musk et OpenAI, les avocats d’OpenAI ont interrogé sur le point de savoir si xAI avait utilisé la distillation pour améliorer ses modèles à l’aide de la technologie d’OpenAI. Musk a d’abord déclaré que « presque toutes les entreprises d’IA font ça », mais lorsqu’on lui a demandé une réponse directe, a reconnu…
GateNewsIl y a 9m
66,3% des employés américains à hauts revenus utilisent des outils d’IA au travail, selon une enquête de la Réserve fédérale
Selon une enquête de la Réserve fédérale, 66,3 % des employés américains gagnant plus de 200 000 dollars par an ont utilisé des outils d'IA au travail au cours des 12 derniers mois au 1er mai. Dans les tranches de revenus plus faibles, les taux d'utilisation diminuent fortement : 51,6 % pour ceux qui gagnent entre 100 000 et 200 000 dollars, 40,2 % pour ceux qui gagnent entre 50 000 et 100
GateNewsIl y a 28m
xAI lance l’API Grok 4.3 avec une fenêtre de contexte de 1 million de tokens pour 1,25 dollar par million de tokens d’entrée
D’après BlockBeats, xAI a lancé l’API Grok 4.3 le 1er mai. Le nouveau modèle prend en charge une fenêtre de contexte de 1 million de tokens et propose des capacités d’entrée/sortie de texte, multimodales ainsi que des fonctions d’appel d’outils. L’API Grok 4.3 est proposée à 1,25 $ par million d’entrées
GateNewsIl y a 40m
Les géants de la tech américaine s’apprêtent à investir $700B en infrastructure d’IA d’ici 2026, dépassant largement les 105 milliards de dollars de la Chine
D’après le South China Morning Post, les géants américains de la tech devraient investir plus de 700 milliards de dollars dans les infrastructures d’IA cette année, bien au-delà des acteurs chinois. Google, Microsoft, Meta et Amazon représentent la majeure partie de ce total, tandis que Morgan Stanley a estimé que les fournisseurs de cloud chinois dépenseraient environ 105 milliards de dollars…
GateNewsIl y a 45m
Huawei prévoit que ses revenus de puces IA pour 2026 atteindront 12 milliards de dollars, soit une hausse de 60 % par rapport à 2025
Selon Reuters, Huawei s’attend à ce que son chiffre d’affaires de puces d’IA pour 2026 atteigne environ 12 milliards de dollars, soit une hausse d’au moins 60 % par rapport aux 7,5 milliards de dollars en 2025. La plupart des commandes de cette année portent sur le processeur Ascend 950PR, entré en production de masse en mars. L’entreprise prévoit de lancer une
GateNewsIl y a 1h
Nvidia investit dans la startup suédoise de legaltech en IA, Legora, et Jude Law en devient l’ambassadeur de marque mondial
Nvidia investit 50 millions de dollars supplémentaires dans le cadre d'un tour d'extension Series D pour Legora, portant le total des levées de fonds de Legora à 600 millions de dollars, avec une valorisation de 5,6 milliards de dollars. Atlassian, Adams Street Partners et Insight Partners participent. Legora se concentre sur la legaltech IA et propose des outils tels que l'examen automatisé, l'analyse des contrats et la recherche juridique, avec un ARR de plus de 100 millions de dollars ; les effectifs sont passés de 40 à 400. Jude Law devient l'ambassadeur mondial de la marque, avec le slogan publicitaire « Law just got more attractive ».
ChainNewsAbmediaIl y a 1h