Lin Junyang quitte Alibaba et publie son premier message : l'ère des agents intelligents est en train d'arriver

2026-03-27 10:16:08

Auteur : Lin Junyang, ancien responsable de Tongyi Qwen, le P10 le plus jeune d’Alibaba. A quitté Alibaba en mars 2026.

Titre original : « De la pensée « raisonnée » à la pensée « agentique » »

Les deux dernières années ont redéfini notre manière d’évaluer les modèles ainsi que nos attentes à leur égard. L’o1 d’OpenAI a prouvé que la « pensée » peut devenir une capacité de premier ordre, une compétence que l’on peut spécifiquement entraîner et ouvrir aux utilisateurs. Le DeepSeek-R1 a démontré que ce style de raisonnement post-formation peut être entièrement reproduit et étendu en dehors des meilleurs laboratoires initiaux. OpenAI a décrit l’o1 comme un modèle entraîné par apprentissage par renforcement qui « pense avant de répondre » ; tandis que DeepSeek a positionné le R1 comme un modèle de raisonnement open-source capable de rivaliser directement avec l’o1.

Cette phase a été significative. Mais le premier semestre 2025 s’est essentiellement concentré sur la « pensée de raisonnement » : comment faire en sorte que les modèles investissent plus de puissance de calcul dans le raisonnement, comment les entraîner avec des signaux de récompense plus forts, et comment présenter ou contrôler cet investissement de raisonnement supplémentaire. La question maintenant est : quelle est la prochaine étape ? Je crois que la réponse est la « pensée agentique » : penser pour agir, en mettant à jour continuellement les plans en fonction des retours du monde réel tout en interagissant avec l’environnement.

Ce que l’essor de l’o1 et du R1 nous a vraiment appris

La première vague de modèles de raisonnement nous a appris que si nous voulons étendre l’apprentissage par renforcement (RL) dans les modèles de langage, nous avons besoin de signaux de rétroaction déterministes, stables et extensibles. Les domaines vérifiables comme les mathématiques, le code et la logique sont devenus centraux, car dans ces scénarios, les signaux de récompense sont beaucoup plus forts que les préférences de supervision conventionnelles. Ils permettent à l’apprentissage par renforcement d’optimiser pour la « justesse » plutôt que pour la « plausibilité ». L’infrastructure est devenue essentielle.

Une fois que le modèle a été entraîné pour pouvoir raisonner sur de plus longues trajectoires, l’apprentissage par renforcement n’est plus seulement un composant léger d’un ajustement supervisé (SFT). C’est devenu un problème de système complexe. Vous avez besoin de déploiements de stratégies à grande échelle (rollouts), de mécanismes de validation à haut débit, de mises à jour de stratégies stables et de capacités d’échantillonnage efficaces. L’apparition de modèles de raisonnement représente à la fois une percée en matière de capacité de modélisation et une victoire en ingénierie d’infrastructure. OpenAI a décrit l’o1 comme une ligne de produits de raisonnement entraînée par RL, tandis que DeepSeek R1 a ensuite confirmé cette direction, montrant au monde combien d’algorithmes exclusifs et de travaux d’infrastructure sont nécessaires pour le RL basé sur le raisonnement. C’est un premier changement majeur dans l’industrie : passer de l’extension de la pré-formation à l’extension de la post-formation pour renforcer les capacités de raisonnement.

Le véritable problème n’a jamais été seulement « fusionner la pensée et les instructions »

Au début de 2025, beaucoup d’entre nous dans l’équipe Qwen avaient une vision grandiose en tête : le système idéal devrait unifier les modes de « pensée » et d’« instruction ». Il devrait supporter un degré de raisonnement ajustable, mentalement similaire à des réglages de raisonnement « bas/moyen/haut ». Mieux encore, il pourrait automatiquement inférer la quantité de raisonnement requise en fonction des mots-clés et du contexte, décidant ainsi quand répondre immédiatement, quand réfléchir un peu plus, et quand investir massivement des ressources de calcul sur de véritables problèmes difficiles.

Conceptuellement, c’est une direction correcte. Qwen3 est l’une des tentatives publiques les plus claires. Elle a introduit un « mode de pensée hybride », conciliant au sein d’une même série de modèles les comportements de pensée et non-pensée, en mettant l’accent sur un budget de pensée contrôlable, et en décrivant un pipeline de post-formation en quatre étapes — lequel inclut explicitement la « fusion des modes de pensée » après le démarrage à froid des chaînes de pensée longues (long-CoT) et le raisonnement RL.

Cependant, la fusion est facile à dire, mais extrêmement difficile à réaliser. La difficulté réside dans les données. Lorsque les gens parlent de fusionner la pensée et les instructions, ce à quoi ils pensent souvent en premier lieu est la compatibilité côté modèle : un point de contrôle (checkpoint) peut-il soutenir les deux modes ? Un modèle de chat peut-il passer d’un mode à l’autre sans couture ? La pile de services peut-elle fournir les interrupteurs de contrôle correspondants ? Mais le paradoxe plus profond réside dans le fait que les distributions de données et les objectifs de comportement de ces deux modes sont fondamentalement différents.

Dans notre tentative d’équilibrer la « fusion des modèles » avec « l’amélioration de la qualité et de la diversité des données de post-formation », nous avons rencontré quelques obstacles. Lors de notre retour d’expérience, nous avons porté une attention particulière à la manière dont les utilisateurs utilisaient réellement les modes de pensée et d’instructions dans des scénarios pratiques. Un puissant modèle d’instruction, sa récompense provient souvent de la clarté, de la concision, du respect du format, ainsi que du maintien d’une latence extrêmement basse sur des tâches d’entreprise répétées et massives (comme la réécriture, l’annotation, le support de modèles, l’extraction structurée et les Q&R opérationnels). En revanche, un puissant modèle de pensée tire sa récompense du fait de consommer plus de tokens sur des problèmes difficiles, de maintenir la cohérence de la structure logique interne, d’explorer des chemins alternatifs, et de conserver une quantité suffisante de calcul interne pour améliorer substantiellement le taux de réussite final.

Ces deux modes de comportement se contrarient mutuellement. Si les données de fusion ne sont pas soigneusement planifiées, le résultat est souvent désavantageux des deux côtés : le comportement de « pensée » devient bruyant, encombré ou indécis ; tandis que le comportement d’« instruction » perd sa clarté, sa fiabilité diminue, et le coût d’utilisation dépasse largement les attentes réelles des utilisateurs commerciaux.

Ainsi, dans la pratique, le fait de séparer les deux reste attrayant. Plus tard en 2025, après l’architecture hybride initiale de Qwen3, la ligne de produits 2507 a publié des mises à jour d’Instruct (instruction) et de Thinking (pensée) qui étaient complètement distinctes, y compris des variantes indépendantes de 30B et 235B. Dans les déploiements commerciaux, de nombreux clients souhaitent toujours obtenir un comportement d’instruction à haut débit, à faible coût et hautement contrôlable pour des opérations par lots. Dans ces scénarios, la fusion ne peut pas apporter de bénéfices significatifs. Séparer les deux lignes de produits a en fait permis à l’équipe de résoudre plus purement les problèmes de données et d’entraînement spécifiques à chaque mode.

D’autres laboratoires ont choisi la voie opposée. Anthropic prône ouvertement l’idée d’un modèle intégré : Claude 3.7 Sonnet est positionné comme un modèle de raisonnement hybride, où les utilisateurs peuvent choisir de répondre de manière conventionnelle ou d’élargir leur réflexion, et les utilisateurs d’API peuvent également définir un budget de réflexion. Anthropic a clairement déclaré qu’ils considèrent le raisonnement comme une capacité intégrée, et non comme des modèles indépendants séparés. GLM-4.5 se présente également comme un modèle de raisonnement hybride combinant les deux modes, tentant d’intégrer le raisonnement, le codage et les capacités d’agent ; DeepSeek a également lancé le mécanisme de raisonnement hybride « pensée et non-pensée » dans sa version V3.1.

La question centrale ici est de savoir si cette fusion est naturelle et organique. Si la pensée et les instructions sont simplement forcées dans le même poids de modèle et se comportent comme deux personnalités indépendantes mal assemblées, alors l’expérience produit sera toujours très discordante. Une véritable fusion réussie nécessite un intervalle d’investissement de raisonnement fluide. Le modèle devrait être capable d’exprimer différents niveaux d’intensité d’investissement, et, dans un état idéal, faire des choix de manière adaptative. Le contrôle de l’intensité de style GPT pointe précisément cela : il s’agit d’une stratégie d’allocation de puissance de calcul, et non d’un simple interrupteur binaire.

Pourquoi la direction d’Anthropic est une correction bénéfique

La communication d’Anthropic lors du lancement de Claude 3.7 et Claude 4 a été remarquablement mesurée. Ils se sont concentrés sur le raisonnement intégré, le budget de réflexion contrôlable par l’utilisateur, les tâches du monde réel, la qualité du codage, et la capacité de rappeler des outils pendant la réflexion élargie. Claude 3.7 a été présenté comme un modèle de raisonnement hybride avec un budget contrôlable ; Claude 4 a encore progressé, permettant au processus de raisonnement de s’entrelacer avec les appels d’outils. Dans le même temps, Anthropic a réitéré que le codage, les tâches de longue durée et les flux de travail d’agent étaient leur objectif central.

Générer simplement des trajectoires de raisonnement plus longues ne rend pas automatiquement le modèle plus intelligent. Dans de nombreux cas, trop de raisonnement exposé peut révéler une répartition inefficace de la puissance de calcul. Si le modèle essaie de raisonner de manière aussi longue sur toutes les choses, cela signifie qu’il n’a pas bien priorisé, n’a pas pu simplifier l’information, ou n’est tout simplement pas capable de passer à l’action. La trajectoire de développement d’Anthropic transmet une vision plus disciplinée : la pensée doit être façonnée par la charge de travail cible. Si l’objectif est le codage, alors la valeur de la pensée devrait se manifester dans la navigation dans le code, la planification, la décomposition des tâches, la récupération d’erreurs et l’orchestration des outils. Si l’objectif est le flux de travail d’agent, alors la pensée devrait viser à améliorer la qualité d’exécution sur le long terme, plutôt que d’écrire un discours élaboré.

Cette emphase sur l’« utilité des objectifs » pointe vers une tendance plus large : nous passons de l’ère de l’entraînement des modèles à l’ère de l’entraînement des agents. Nous avons également souligné ce point dans le blog de Qwen3 — « Nous faisons la transition d’une ère axée sur l’entraînement des modèles à une ère centrée sur l’entraînement des agents » — et avons lié le point de rupture futur du RL aux retours d’environnement nécessaires pour le raisonnement à long terme. Les agents sont des systèmes capables de planifier, de décider quand agir, d’appeler des outils, de percevoir les retours de l’environnement, d’ajuster des stratégies et de fonctionner de manière continue sur le long terme. Leur définition essentielle réside dans leur interaction en boucle fermée avec le monde réel.

Que signifie réellement la « pensée agentique »

La pensée agentique est un objectif d’optimisation fondamentalement différent. L’évaluation des critères de « pensée raisonnée » se concentre généralement sur la qualité de la délibération interne avant d’atteindre une réponse finale : le modèle peut-il résoudre des théorèmes, écrire des preuves, générer du code sans bugs, ou réussir des tests de référence ? En revanche, les critères d’évaluation de la « pensée agentique » se concentrent sur la capacité du modèle à faire des progrès substantiels tout en interagissant avec l’environnement.

La question centrale passe de « le modèle pense-t-il suffisamment longtemps ? » à « la manière dont le modèle pense-t-elle suffit-elle à le soutenir dans ses actions efficaces ? » La pensée agentique doit traiter plusieurs problèmes que les modèles de raisonnement purs peuvent généralement éviter :

a. Décider quand arrêter de penser et agir
b. Choisir quel outil appeler et dans quel ordre
c. Intégrer des observations bruyantes ou incomplètes provenant de l’environnement
d. Réajuster les plans après un échec
e. Maintenir la cohérence logique au cours des dialogues multiples et des appels d’outils

En résumé, un modèle doté de pensée agentique doit raisonner à travers l’action.

Pourquoi l’infrastructure de l’apprentissage par renforcement agentique est plus difficile

Une fois que l’objectif passe de « résoudre des problèmes de référence » à « accomplir des tâches interactives », la pile technique du RL subit un changement radical. L’infrastructure utilisée dans le RL de raisonnement traditionnel est devenue largement insuffisante. Dans le RL de raisonnement, vous pouvez généralement considérer les déploiements de stratégies (rollouts) comme des trajectoires relativement indépendantes, équipées d’évaluateurs clairs et précis. Mais dans le RL agentique, la stratégie est profondément intégrée dans un vaste cadre de soutien : serveurs d’outils, navigateurs, terminaux, moteurs de recherche, simulateurs, bacs d’exécution, couches API, systèmes de mémoire et cadres d’orchestration. L’environnement n’est plus un arbitre statique ; il devient une partie intégrante du système d’entraînement.

Cela a engendré un tout nouveau besoin à l’échelle du système : l’entraînement et le raisonnement doivent être découpés de manière plus approfondie. En l’absence de ce découplage, le débit des déploiements de stratégies s’effondrera directement. Imaginez un agent de codage, qui doit exécuter le code qu’il génère dans un cadre de test en temps réel : le côté raisonnement sera contraint à une pause en attendant des retours d’exécution, tandis que le côté entraînement se retrouvera affamé par l’absence de données de trajectoire complètes, ce qui entraînera un taux d’utilisation des GPU bien inférieur à celui du RL de raisonnement traditionnel. Si l’on ajoute à cela les délais d’outils, la visibilité locale et les environnements à états, ces problèmes d’inefficacité seront encore amplifiés. Le résultat est qu’avant d’atteindre les indicateurs de capacité escomptés, l’ensemble de l’expérience devient extrêmement lente et douloureuse.

L’environnement lui-même devient ainsi un produit de recherche central. À l’époque du SFT (ajustement supervisé), nous étions avides de diversité des données. Dans l’ère des agents, nous devons nous concentrer sur la qualité de l’environnement : stabilité, authenticité, couverture des scénarios, échelle de difficulté, diversité des états, richesse des retours, capacité à prévenir la tricherie, et évolutivité générée par les déploiements de stratégies. La création d’environnements virtuels est devenue une véritable voie entrepreneuriale hardcore, et n’est plus un simple projet annexe. Si les agents doivent être formés dans des conditions similaires à celles de l’environnement de production, alors l’environnement lui-même fait partie de la pile de compétences techniques centrales.

Le prochain domaine de pointe : une réflexion plus pratique

Mes attentes personnelles sont que la pensée agentique deviendra la forme de pensée dominantes à l’avenir. Je pense qu’elle finira par remplacer la plupart des vieux modes de raisonnement « monologues statiques » — c’est-à-dire ceux qui sont trop longs, isolés, et qui tentent de masquer leur manque d’interaction par une production de texte de plus en plus grande. Même face à des tâches mathématiques ou de codage extrêmement difficiles, un véritable système avancé devrait avoir le droit de rechercher, simuler, exécuter, vérifier et modifier. Notre objectif ultime est de résoudre des problèmes réels de manière robuste et efficace.

Le plus grand point de douleur dans l’entraînement de tels systèmes réside dans la « tricherie de récompense » (reward hacking). Une fois qu’un modèle a un accès substantiel aux outils, la tricherie de récompense peut devenir extrêmement destructive. Un modèle ayant accès à des fonctionnalités de recherche pourrait directement apprendre à rechercher des réponses sur Internet pendant l’entraînement RL. Un agent de codage pourrait exploiter des informations futures non publiées dans la base de code, abuser des journaux, ou trouver une sorte de raccourci qui rendrait la tâche inefficace. Un environnement avec des vulnérabilités cachées donnerait l’impression que la stratégie du modèle est exceptionnelle, mais en réalité, il aurait simplement formé un expert en tricherie. Comparé à l’ère du raisonnement, la situation dans l’ère agentique est beaucoup plus subtile et dangereuse. Des outils plus puissants rendent le modèle plus utile, mais amplifient également de manière exponentielle la surface d’attaque pour les optimisations illusoires. Nous pouvons anticiper que le prochain goulet d’étranglement académique sévère émergera dans la conception des environnements, la robustesse des évaluateurs, les protocoles anti-triche, et l’établissement de normes d’interface plus normatives entre les stratégies et le monde physique. Malgré les défis, la direction est indéfectible : la pensée habilitée par des outils est essentiellement plus précieuse que la réflexion en vase clos, et a plus de chances d’apporter de réelles avancées en productivité.

La pensée agentique signifie également l’émergence de l’« ingénierie des cadres de soutien » (harness engineering). L’intelligence centrale future dépendra de plus en plus de la manière dont plusieurs agents s’organisent de manière collaborative : un orchestrateur central responsable de la planification et de la programmation des tâches, des agents spécialisés jouant le rôle d’experts de domaine, et des sous-agents responsables de l’exécution de tâches verticalement segmentées (non seulement ils travaillent, mais ils aident également à contrôler le contexte, à éviter la contamination de la mémoire, et à maintenir une séparation physique entre les différents niveaux de réflexion). L’avenir de l’industrie se déplace de l’entraînement des modèles vers l’entraînement des agents et, finalement, vers l’entraînement de vastes systèmes.

Conclusion

La première phase de la vague de raisonnement a établi une loi de fer : tant que le signal de rétroaction est suffisamment fiable et que l’infrastructure est capable de supporter, superposer l’apprentissage par renforcement sur les modèles de langage peut engendrer une capacité cognitive de transformation.

Et le changement d’industrie plus profond se déplace de la « pensée raisonnée » vers la « pensée agentique » : de la simple réflexion prolongée vers la pensée pour agir. L’objectif central de l’entraînement a déjà changé. Il ne s’agit plus seulement du modèle lui-même, mais d’un système symbiotique de « modèle + environnement », plus concrètement, des agents et de leur cadre de soutien périphérique. Cela renverse complètement notre compréhension de ce qui constitue un « produit de recherche central » : bien que l’architecture du modèle et les données d’entraînement soient importantes, la conception de l’environnement, l’infrastructure des déploiements de stratégies, la robustesse des évaluateurs aux interférences, et les interfaces sous-jacentes pour la collaboration entre agents seront élevées à un niveau équivalent, voire supérieur. Cela redéfinit également ce qu’est une « bonne pensée » : la véritable « bonne » pensée est celle qui, dans les diverses contraintes du monde réel, soutient le mieux l’action, et non pas simplement celle qui produit le texte le plus long ou le raisonnement le plus visible.

Cela change également la logique des fossés de concurrence commerciale futurs. À l’ère du raisonnement, celui qui a le meilleur algorithme RL, les signaux de rétroaction les plus purs et les pipelines d’entraînement les plus extensibles l’emportera. À l’ère agentique, l’atout majeur deviendra celui qui possède un environnement plus réaliste, une architecture plus fluide « entraînement-raisonnement intégrée », des capacités d’ingénierie de cadre plus solides, et celui qui peut le mieux fermer cette boucle de rétroaction cruciale entre « la décision du modèle » et « les conséquences réelles de cette décision ».

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.