New Gray Industry: Thousands of People Worldwide Are Selling Themselves to Train AI, But What Is the Cost?

CryptoCity

Des milliers de personnes dans le monde vendent leur voix, leur image et leurs enregistrements d’appels pour alimenter l’IA en échange de revenus, tout en prenant le risque de contrefaçon profonde et d’autorisation irrévocable.

Introduction de Deep Tide : Une enquête du Guardian britannique révèle une industrie grise en pleine croissance : des milliers de personnes à travers le monde gagnent de l’argent en vendant leur voix, leur visage, leurs enregistrements d’appels et des vidéos de leur vie quotidienne pour financer la formation de l’IA. Il ne s’agit pas d’une simple discussion sur la vie privée, mais d’une enquête avec de vraies personnes, de vraies sommes d’argent et de vraies conséquences — un acteur ayant vendu son visage a vu plus tard “son” image faire la promotion d’un produit médical douteux sur Instagram, avec des commentaires sur son “apparence”. Alors que la soif de données des entreprises d’IA s’associe à l’écart économique mondial, une transaction inégale se crée.

Le texte complet est le suivant :

Un matin de l’année dernière, Jacobus Louw, qui vit à Cape Town en Afrique du Sud, est sorti comme d’habitude pour se promener, nourrissant des mouettes en chemin. Mais cette fois, il a enregistré quelques vidéos — filmant ses pas sur le trottoir et sa vue. Ces vidéos lui ont rapporté 14 dollars, soit environ 10 fois le salaire minimum du pays, équivalent aux dépenses alimentaires de ce jeune homme de 27 ans pour une demi-semaine.

C’était une mission de “navigation urbaine” réalisée sur Kled AI. Kled AI est une application qui paie les utilisateurs pour télécharger des photos, des vidéos et d’autres données utilisées pour former des modèles d’IA. En quelques semaines seulement, Louw a gagné 50 dollars en téléchargeant des photos et des vidéos de sa vie quotidienne.

À des milliers de kilomètres de là, à Ranchi en Inde, Sahil Tigga, un étudiant de 22 ans, gagne régulièrement de l’argent grâce à Silencio — une application qui externalise des données audio pour former l’IA, accédant au microphone de son téléphone pour collecter des bruits d’ambiance dans des restaurants ou à des carrefours animés. Il télécharge également ses propres enregistrements de voix. Sahil se rend parfois dans des lieux uniques, comme des halls d’hôtel qui ne sont pas encore enregistrés sur la carte de Silencio. Grâce à cela, il gagne plus de 100 dollars par mois, suffisamment pour couvrir toutes ses dépenses alimentaires.

À Chicago, Ramelio Hill, un apprenti soudeur de 18 ans, a vendu ses conversations privées par téléphone avec des amis et des membres de sa famille à Neon Mobile — une plateforme d’entraînement d’IA conversationnelle qui paie 0,50 dollars par minute — et a gagné plusieurs centaines de dollars. Pour Hill, le calcul est simple : il pense que les entreprises technologiques ont déjà accès à une grande quantité de ses données personnelles, alors pourquoi ne pas en tirer un profit.

Ces “jobs d’entraînement de l’IA” — télécharger des scènes environnantes, des photos de soi, des vidéos et de l’audio — se trouvent à l’avant-garde d’une nouvelle ruée vers l’or des données à l’échelle mondiale. Alors que la Silicon Valley recherche des données humaines de haute qualité qui dépassent ce qu’il est possible d’extraire du web ouvert, une industrie florissante de marché de données émerge pour combler cette lacune. De Cape Town à Chicago, des milliers de personnes accordent des droits d’utilisation limitée sur leurs caractéristiques biométriques et leurs données personnelles à la prochaine génération d’IA.

Mais cette nouvelle économie de travail indépendant a un coût. Pour quelques dollars, ces formateurs alimentent une industrie qui pourrait finalement rendre leurs compétences obsolètes, tout en les exposant à des risques futurs de contrefaçon profonde, de vol d’identité et d’exploitation numérique — et ils commencent à peine à en prendre conscience.

Faire tourner les rouages de l’IA

Les modèles de langage IA comme ChatGPT et Gemini nécessitent une immense quantité de matériel d’apprentissage pour continuer à s’améliorer, mais ils sont confrontés à une pénurie de données. Les principales sources de données d’entraînement — C4, RefinedWeb et Dolma — représentent un quart des ensembles de données de la plus haute qualité sur le web et limitent aujourd’hui l’utilisation de leurs données par les entreprises d’IA génératives. Les chercheurs estiment que les entreprises d’IA pourraient épuiser les nouveaux textes de haute qualité disponibles d’ici 2026. Bien que certains laboratoires aient commencé à utiliser des données synthétiques générées par l’IA elle-même pour l’entraînement, ce processus de rétroaction peut entraîner des modèles produisant des “déchets” truffés d’erreurs, provoquant ainsi un effondrement.

Source de l’image : The Guardian

Des applications comme Kled AI et Silencio interviennent ici. Dans ces marchés de données, des millions de personnes alimentent et entraînent l’IA en vendant leurs données d’identité. En plus de Kled AI, Silencio et Neon Mobile, les formateurs d’IA ont de nombreuses autres options : Luel AI, soutenu par l’incubateur renommé Y-Combinator, qui acquiert des matériaux de dialogue multilingues pour environ 0,15 dollars par minute ; ElevenLabs qui vous permet de cloner numériquement votre voix et de la mettre à disposition d’autres à un tarif de base de 0,02 dollars par minute.

Bouke Klein Teeselink, professeur d’économie au King’s College de Londres, déclare que les jobs d’entraînement d’IA constituent une nouvelle catégorie de travail qui devrait croître considérablement.

Les entreprises d’IA savent que payer les gens pour les droits d’utilisation de leurs données aide à éviter les litiges potentiels liés aux droits d’auteur qui pourraient découler d’une dépendance totale au contenu extrait du web, indique Teeselink. Le chercheur en IA Veniamin Veselovsky explique que ces entreprises ont également besoin de données de haute qualité pour modéliser de nouveaux comportements améliorés du système. “Pour l’instant, les données humaines sont le standard d’or pour l’échantillonnage en dehors de la distribution du modèle,” ajoute Veselovsky.

Les humains qui font fonctionner ces machines — en particulier ceux des pays en développement — ont souvent besoin de cet argent et n’ont presque pas d’autres choix. Pour de nombreux travailleurs d’entraînement d’IA, exercer ce travail est une réponse pragmatique à l’écart économique. Dans les pays à fort taux de chômage et avec une dévaluation de la monnaie locale, gagner des dollars est souvent plus stable et plus rentable que les emplois locaux. Certains ont du mal à trouver des emplois d’entrée de gamme et, pour des raisons de subsistance, sont contraints de faire de l’entraînement d’IA. Même dans des pays plus riches, l’augmentation du coût de la vie a rendu la vente de soi une option financière logique.

Louw, un formateur d’IA à Cape Town, est bien conscient du coût en termes de vie privée. Bien que ses revenus soient instables et insuffisants pour couvrir tous ses frais mensuels, il est prêt à accepter ces conditions pour gagner de l’argent. Il a souffert d’une maladie du système nerveux pendant des années, rendant la recherche d’un emploi difficile, mais l’argent gagné sur le marché de données d’IA (y compris Kled AI) lui a permis d’économiser 500 dollars pour s’inscrire à un cours de formation en spa, devenant massothérapeute.

“En tant qu’africain du sud, recevoir des dollars vaut plus que ce que les gens imaginent,” dit Louw.

Mark Graham, professeur de géographie numérique à l’Université d’Oxford et auteur du livre Feeding the Machine, admet que pour les individus des pays en développement, cet argent peut avoir une signification pratique à court terme, mais il avertit que “structurellement, ce travail est instable, sans perspective d’avancement, et en réalité, c’est une impasse.”

Graham ajoute que le marché des données d’IA repose sur “une concurrence à la baisse des salaires” et “une demande temporaire de données humaines”. Une fois que cette demande se déplace, “les travailleurs n’auront aucune garantie, aucune compétence transférable et pas de filet de sécurité.”

Graham affirme que le seul gagnant est “les plateformes de l’hémisphère nord, qui capturent toute la valeur durable.”

Source de l’image : The Guardian

Autorisation pleine

Le formateur d’IA de Chicago, Hill, a des sentiments partagés sur la vente de ses appels privés à Neon Mobile. Environ 11 heures de contenu d’appels lui ont rapporté 200 dollars, mais il dit que l’application est souvent hors ligne et retarde les paiements. “Neon a toujours été suspect à mes yeux, mais je continue à l’utiliser juste pour gagner un peu d’argent pour payer les factures,” dit Hill.

Maintenant, il commence à reconsidérer si cet argent est vraiment si facile à obtenir. En septembre dernier, Neon Mobile a été mis hors ligne quelques semaines après son lancement, après que TechCrunch a découvert une faille de sécurité permettant à quiconque d’accéder aux numéros de téléphone des utilisateurs, aux enregistrements d’appels et aux messages texte. Hill dit que Neon Mobile ne l’a jamais informé de cette situation, et il s’inquiète maintenant que sa voix soit utilisée de manière abusive sur le net.

Jennifer King, chercheuse en confidentialité des données au Stanford Institute for Human-Centered Artificial Intelligence, s’inquiète du fait que le marché des données d’IA n’est pas clair sur la façon dont les données des utilisateurs seront utilisées et où. Elle ajoute qu’en l’absence de compréhension de leurs droits et sans avoir pu négocier à ce sujet, “les consommateurs font face au risque que leurs données soient réutilisées d’une manière qu’ils n’aiment pas, qu’ils ne comprennent pas ou qu’ils n’avaient pas envisagée, et il n’y aura alors presque aucun recours.”

Lorsque les formateurs d’IA partagent des données sur Neon Mobile et Kled AI, ils accordent une autorisation pleine (mondiale, exclusive, irrévocable, transférable et sans redevance) permettant à la plateforme de vendre, d’utiliser, de divulguer publiquement et de stocker leur image, et même de créer des œuvres dérivées à partir de celle-ci.

Avi Patel, fondateur de Kled AI, déclare que l’accord de données de son entreprise limitera l’utilisation à des fins de formation et de recherche en IA. “Tout le modèle commercial repose sur la confiance des utilisateurs. Si les contributeurs pensent que leurs données peuvent être abusées, la plateforme ne peut pas fonctionner.” Il affirme que l’entreprise examinera les acheteurs avant de vendre des ensembles de données, afin d’éviter de collaborer avec des “organisations à intentions douteuses”, comme l’industrie pornographique, ainsi que des “organismes gouvernementaux” qu’ils estiment susceptibles d’utiliser les données d’une manière qui violerait cette confiance.

Neon Mobile n’a pas répondu à la demande de commentaire.

Enrico Bonadio, professeur de droit à l’Université de la Ville de Londres, souligne que ces clauses d’accord permettent à la plateforme et à ses clients de “faire presque tout ce qu’ils veulent avec le matériel, de manière permanente, sans paiement supplémentaire, et les contributeurs n’ont pas de véritable moyen de retirer leur consentement ou de renégocier.”

Les risques plus préoccupants incluent : les données des formateurs utilisées pour créer des contrefaçons profondes et des usurpations d’identité. Bien que le marché des données prétende qu’il éliminera les informations d’identification dans les données avant la vente (comme les noms et les emplacements), la régularité biométrique rend en essence difficile un anonymisation significative, ajoute Bonadio.

Le regret des vendeurs

Même si les formateurs d’IA peuvent négocier des clauses de protection plus détaillées concernant l’utilisation des données, ils pourraient toujours regretter leur choix. En 2024, Adam Coy, un acteur de New York, a vendu son image à Captions — un logiciel de montage vidéo IA, qui a depuis été rebaptisé Mirage — pour 1 000 dollars. Son accord stipule que son identité ne sera pas utilisée à des fins politiques, ni pour promouvoir de l’alcool, du tabac ou du contenu pornographique, et que la durée de l’autorisation est d’un an.

Captions n’a pas répondu à la demande de commentaire.

Peu de temps après, les amis d’Adam ont commencé à partager des vidéos qu’ils ont trouvées en ligne, dans lesquelles son visage et sa voix étaient utilisés, atteignant des millions de vues. Dans l’une des vidéos sur Instagram, le clone IA d’Adam se présente comme “médecin vaginal”, promouvant des suppléments médicaux non vérifiés pour les femmes enceintes et postpartum.

“Expliquer cela aux autres me rend mal à l’aise,” dit Coy.

“Les commentaires sont bizarres, car ils évaluent mon apparence, mais ce n’est pas du tout moi,” ajoute Coy. “Lorsque j’ai pris la décision de vendre mon image, je pensais que la plupart des modèles de toute façon iraient extraire des données et des images en ligne, alors autant être payé.”

Coy dit qu’il n’a pas pris d’autres travaux de données d’IA depuis lors. Il a déclaré qu’il ne considérerait de le faire à nouveau que si une entreprise offrait une compensation substantielle.

  • Cet article est reproduit avec l’autorisation de : Deep Tide TechFlow
  • Titre original : “Thousands of people are selling their identities to train AI – but at what cost?”
  • Auteur original : Shubham Agarwal, The Guardian
  • Traduction : Deep Tide TechFlow
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire