Le responsable de Qianwen, Lin Junyang, après son départ, publie son premier long article : l'industrie de l'IA passe de « l'entraînement de modèles » à « l'entraînement d'agents »

BlockBeatNews

2026-03-26 11:08:04

Selon la surveillance de 1M AI News, l’ancien responsable technique de Alibaba Tongyi Qianwen, Lin Junyang, a publié un long article sur X, exposant sa vision selon laquelle l’industrie de l’IA évolue du « raisonnement » vers la « pensée agentique ». C’est la première fois depuis qu’il a quitté l’équipe de Qianwen début mars qu’il partage publiquement ses opinions techniques.

Lin Junyang pense que le sujet central du premier semestre 2025 sera le raisonnement, c’est-à-dire comment faire en sorte que le modèle consomme plus de puissance lors de la phase de raisonnement, comment l’entraîner avec des signaux de récompense plus forts, et comment contrôler la profondeur du raisonnement. Mais la prochaine étape sera la pensée agentique : le modèle ne se contentera plus de « réfléchir plus longtemps », mais « réfléchir pour agir », en ajustant continuellement ses plans lors de ses interactions avec l’environnement.

Dans son article, il revient honnêtement sur les choix technologiques de l’équipe Qianwen. Qwen3 tente d’intégrer à un seul modèle à la fois le mode de réflexion et le mode d’instruction, supportant un budget de raisonnement ajustable. Cependant, en pratique, il a été constaté que la distribution des données et les objectifs comportementaux de ces deux modes diffèrent énormément : le mode instruction privilégie la simplicité, la faible latence et la conformité au format, tandis que le mode réflexion cherche à investir plus de tokens dans les tâches difficiles et à maintenir une structure de raisonnement intermédiaire. Si la planification des données n’est pas suffisamment fine, le résultat est souvent médiocre dans les deux cas. C’est pourquoi la série Qwen 2507 a finalement été publiée en versions Instruct et Thinking (avec des spécifications de 30B et 235B), afin d’optimiser chaque version séparément. Anthropic a adopté une approche opposée : dès Claude 3.7 Sonnet, il a prôné que le raisonnement doit être une capacité intégrée plutôt qu’un modèle indépendant, permettant à l’utilisateur de définir lui-même le budget de réflexion.

Lin Junyang avance que l’infrastructure pour l’apprentissage par renforcement des agents est plus complexe que celle du RL de raisonnement traditionnel. Le rollout en RL de raisonnement est généralement une trajectoire autonome, pouvant être vérifiée avec un vérificateur statique ; en revanche, le RL d’agent exige que le modèle soit intégré à une chaîne d’outils complète (navigateur, terminal, sandbox, API, système de mémoire). La formation et le raisonnement doivent être découplés, sinon le débit du rollout s’effondrera. Il considère que la conception de l’environnement doit être aussi importante que l’architecture du modèle, affirmant que « la construction de l’environnement passe d’un sous-projet à une véritable catégorie d’entreprise ».

Il prévoit que la pensée agentique deviendra la principale forme de réflexion, pouvant même remplacer la longue monologue interne isolé du raisonnement statique traditionnel. Mais le plus grand risque reste le « hacking de récompense » : une fois que le modèle a accès à de véritables outils, il pourrait apprendre à rechercher directement des réponses lors de l’entraînement RL, exploiter des informations futures dans le dépôt ou découvrir des raccourcis pour contourner la tâche. Enfin, il souligne que l’avantage compétitif futur résidera dans de meilleurs algorithmes RL, une conception d’environnement plus sophistiquée, une intégration plus étroite entre entraînement et inférence, et la capacité d’ingénierie système pour la collaboration multi-agent.

Voir l'original

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Commentaire

0/400

Aucun commentaire