Ancien directeur de Tesla AI et voix influente dans le domaine de l’apprentissage profond, Andrej Karpathy a récemment publié un message sur X, soulignant un problème fondamental des grands modèles de langage (LLM) : la mémoire et la personnalisation ne rendent pas le modèle plus intelligent, mais peuvent au contraire renforcer un « biais d’entraînement » systémique, amenant le modèle à répondre davantage par des « réponses correctes courantes » plutôt que par la « meilleure réponse réelle ».
Problème central : les LLM « se souviennent » plutôt qu’« raisonnent »
L’argument de Karpathy remet en question l’hypothèse de fonctionnement des LLM. Il indique que la distribution des « exemples » dans les données d’entraînement est extrêmement inégale — les solutions populaires, les réponses fréquemment discutées apparaissent à plusieurs reprises, tandis que des réponses rares mais tout aussi correctes sont presque absentes.
Cela pose un problème fondamental : lorsque les LLM répondent, ils ne « raisonnent » pas réellement pour trouver la meilleure réponse, mais recherchent dans leur mémoire les « exemples corrects les plus courants ». En d’autres termes, plus une solution est mainstream ou largement discutée, plus le modèle sera enclin à la choisir, même s’il existe des options meilleures ou plus adaptées au contexte actuel.
Effet inverse de la mémoire personnalisée
Ce problème est amplifié dans la fonction de mémoire personnalisée des assistants IA. Lorsqu’un modèle se souvient des préférences, habitudes ou conversations passées d’un utilisateur, le « modèle utilisateur » qu’il construit est en réalité aussi une conséquence de la distribution des données d’entraînement — il retient ce qui ressemble le plus à ce type d’utilisateur, plutôt qu’une compréhension véritable de ses besoins spécifiques.
Cela signifie que plus la personnalisation est forte, plus le modèle risque de projeter l’utilisateur dans un « prototype » plutôt que de fournir une réponse réellement adaptée et sur-mesure.
Impact pratique pour les journalistes spécialisés en IA
Cette observation a une importance directe pour ceux qui utilisent l’IA dans leur travail. Lorsqu’on demande à l’IA d’analyser un projet de cryptomonnaie peu connu, d’évaluer une position politique marginale ou d’étudier une technologie peu discutée, ses réponses tendent naturellement à refléter « l’opinion dominante » plutôt qu’une analyse objective.
Karpathy pense qu’il n’existe pas encore de solution parfaite à ce problème, mais qu’une diversification accrue des données d’entraînement peut aider à l’atténuer. Cependant, le biais fondamental — la tendance du modèle à privilégier les réponses populaires — est une caractéristique intrinsèque de l’architecture des LLM, et non un bug.
Une problématique plus profonde : l’IA reproduit les biais collectifs de l’humanité
L’observation de Karpathy pointe vers une inquiétude plus profonde : les données d’entraînement sont un échantillonnage de l’écriture humaine passée, et non une distribution objective de connaissances. Cela signifie que les LLM ne reproduisent pas seulement le savoir humain, mais aussi ses biais, ses préjugés et sa surreprésentation des « narratifs mainstream ».
À mesure que l’IA est de plus en plus utilisée pour l’analyse de l’actualité, la prise de décision en investissement ou l’évaluation des politiques, l’impact de ces biais d’entraînement s’étend. Ce n’est pas simplement une question technique, mais un enjeu cognitif nécessitant une vigilance critique de la part des utilisateurs.
Pourquoi plus l’IA vous connaît, plus ses réponses sont « mainstream » ? La mise en garde de Karpathy contre le biais d’entraînement, initialement publiée par ABMedia.