Timnit Gebru refuse de retirer l’article sur l’IA, limogée par Google, cinq ans plus tard : les 5 plus grandes prédictions se réalisent toutes

GOOGLX-0,6%

谷歌開除Timnit Gebru

En décembre 2020, Timnit Gebru(ancienne codirectrice de l’équipe d’IA éthique de Google) a reçu, pendant son congé, un email l’informant qu’elle avait été licenciée par Google. La cause : Google lui demandait de retirer ou de supprimer son nom d’une publication d’employé(e) ; elle a refusé. Les hallucinations et le défaut de compréhension, l’amplification des biais, les coûts environnementaux, l’impossibilité de vérifier les données d’entraînement, la centralisation linguistique — cinq ans plus tard, on retrouve des cas correspondants dans la réalité.

Cinq prophéties confrontées au réel : cas confirmés et données

Hallucinations et défaut de compréhension : l’article, publié en 2021, décrit plus tard le phénomène qualifié de « hallucinations », selon lequel les LLM ne font que recoller des formes linguistiques en suivant des probabilités, « sans aucune référence à un sens ». Ce problème est devenu un défaut connu de l’ensemble des systèmes d’IA grand public et a été vérifié dans plusieurs évaluations académiques indépendantes.

Amplification des biais : l’outil d’IA de recrutement d’Amazon, développé dès 2014, a été abandonné en 2018 après avoir discriminé systématiquement les candidates féminines. Le modèle a appris des critères d’évaluation biaisés envers les hommes à partir d’historiques professionnels dominés par les hommes. L’étude d’Obermeyer et al., publiée en 2019 dans《Science》, a révélé qu’un algorithme largement utilisé pour estimer le risque médical utilisait « les dépenses de santé » en remplacement de « la gravité de l’état », conduisant, à score de risque égal, à ce que les patients noirs aient en réalité une situation plus grave ; l’étude a confirmé qu’après correction, la proportion de patients noirs signalés comme nécessitant des soins supplémentaires passerait de 17,7% à 46,5%.

Coûts environnementaux : le rapport environnemental de Google 2024 divulgue que, en 2023, les émissions de gaz à effet de serre atteignaient environ 14,3 millions de tonnes métriques CO₂e, soit une hausse de 48% par rapport au niveau de référence de 2019. Google a confirmé que la cause principale était la forte augmentation de l’électricité consommée par les centres de données portée par l’IA, mettant directement en danger l’objectif initial de neutralité carbone de Google d’ici 2030.

Impossibilité de vérifier les données d’entraînement : en décembre 2023, l’Observatoire du web de Stanford a identifié 3 226 contenus suspects d’abus sexuels sur mineurs (CSAM) dans le jeu de données LAION-5B(contenant 5 850 millions de paires texte-image, déjà utilisé pour entraîner Stable Diffusion) ; parmi eux, 1 008 ont été confirmés par des organisations externes. LAION-5B a été retiré immédiatement.

Centralisation linguistique : l’étude de Thompson et al. en 2024 a analysé un corpus web composé de 6,38 milliards de phrases et a constaté que 57,1% des phrases appartiennent à des ensembles parallèles multilingues, très probablement du contenu répétitif de faible qualité produit par la traduction automatique. Cette proportion est particulièrement élevée dans les langues à faibles ressources, ce qui signifie que les corpus des langues à faibles ressources sont en train d’être contaminés par des produits de piètre qualité issus de la traduction automatique.

Faits confirmés du licenciement de Gebru et contexte de l’article

L’article compte six auteurs ; quatre sont des employés de Google. Au moment où Gebru a reçu la notification de licenciement, elle était en congé. La demande de Google était de retirer ou de supprimer le nom de l’employé(e). Après son refus, on l’a informée, pendant son congé, de la décision de licenciement.

L’article a été officiellement publié en mars 2021. Il indique clairement : pour une entreprise qui construit des LLM, des incitations financières et concurrentielles sont structurellement impossibles à rendre « la sécurité et l’éthique » en mesure de ralentir la mise sur le marché du produit. L’affaire ayant conduit au licenciement de Gebru elle-même a été largement citée comme une validation concrète de cet argument structurel.

FAQ

Quelle est la revendication académique centrale de l’article « Perroquet aléatoire » ?

D’après le texte même de l’article, l’argument central comporte deux niveaux : premièrement, un niveau technique qui met en évidence cinq catégories de risques systémiques des LLM — hallucinations, amplification des biais, coûts environnementaux, impossibilité de vérifier les données, centralisation linguistique. Deuxièmement, un niveau plus fondamental : il indique que ces cinq catégories de risques sont difficiles à résoudre pour la raison que, sous la concurrence et la pression financière, les entreprises qui construisent des LLM sont structurellement enclines à faire passer la vitesse avant la sécurité. L’article a franchi le processus d’évaluation par les pairs lors de la conférence ACM FAccT.

Comment le problème de biais de l’outil d’IA de recrutement d’Amazon a-t-il été découvert et traité ?

D’après les informations publiées, l’outil d’IA d’Amazon pour le recrutement a commencé à être développé en 2014. Le modèle a été entraîné sur des historiques professionnels des dix dernières années dominés par les hommes, et a appris automatiquement des schémas d’évaluation biaisés envers les hommes ; cela a entraîné une pénalisation automatique des CV contenant des termes comme « women's chess club ». Le problème de biais a été découvert en 2018. Amazon a alors abandonné l’outil et a confirmé qu’il n’a pas été utilisé pour évaluer des candidats réels.

L’augmentation des émissions de carbone divulguée dans le rapport environnemental de Google 2024 est-elle entièrement attribuable à l’IA ?

D’après le rapport environnemental de Google 2024, les émissions de gaz à effet de serre pour 2023 atteignaient environ 14,3 millions de tonnes métriques de CO₂e, soit une hausse de 48% par rapport au niveau de référence de 2019. Google indique explicitement que la principale cause est l’augmentation substantielle de l’électricité consommée par les centres de données portée par l’IA. La déclaration de Google ne prétend pas que l’augmentation des émissions de carbone est causée à 100% par l’IA, mais l’expansion des infrastructures d’IA est confirmée comme le principal facteur moteur de l’augmentation.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire