Timnit Gebru 拒撤 AI 論文 depois de ser demitida pela Google, e após 5 anos, 5 de suas principais previsões se confirmaram

GOOGLX-0,44%

谷歌開除Timnit Gebru

Em dezembro de 2020, Timnit Gebru (ex-líder co-responsável pela equipe de ética em IA do Google) recebeu um e-mail durante suas férias informando que ela havia sido demitida pelo Google; a razão era um pedido para remover ou retirar a coautoria/presença do nome da funcionária em artigos de pesquisa, o que ela se recusou a fazer. A pesquisa levantava a questão de “alucinações” e falta de entendimento, amplificação de vieses, custos ambientais, impossibilidade de auditoria dos dados de treinamento e centralização por idioma—cinco anos depois, todos encontraram casos na realidade.

Cinco previsões em confronto com a realidade: casos e dados confirmados

Alucinações e falta de entendimento: o artigo, em 2021, descreveu o fenômeno que depois ficou conhecido como “alucinações”, apontando que LLMs apenas encaixam formas linguísticas com base em probabilidades, “sem qualquer referência a significados”. Esse problema se tornou uma falha conhecida de todos os sistemas principais de IA, e foi validado em várias avaliações acadêmicas independentes.

Amplificação de vieses: ferramenta de recrutamento por IA da Amazon, desenvolvida desde 2014, foi descontinuada em 2018 por discriminação sistemática contra candidatas mulheres; o modelo aprendeu padrões de avaliação que favorecem homens a partir de históricos de currículos predominantemente masculinos. Em 2019, Obermeyer e outros publicaram na revista Science um estudo que revelou que um algoritmo amplamente usado de risco médico substituía “gravidade do quadro” por “gasto com saúde”, levando a que, com a mesma pontuação de risco, pacientes negros tivessem na prática quadros mais graves; a pesquisa confirmou que, após correção, a proporção de pacientes negros marcados como necessitando de cuidados adicionais subiria de 17,7% para 46,5%.

Custo ambiental: no relatório ambiental de 2024, o Google revelou que, em 2023, suas emissões de gases de efeito estufa alcançaram cerca de 14,3 milhões de toneladas métricas de CO₂e, 48% acima da linha de base de 2019. A Google confirmou que a causa principal foi o acentuado aumento do consumo de energia em data centers impulsionado por IA, o que ameaçava diretamente a meta de neutralidade de carbono do Google para 2030.

Impossibilidade de auditoria dos dados de treinamento: em dezembro de 2023, um observatório de internet da Universidade Stanford encontrou 3.226 itens suspeitos de abuso sexual infantil (CSAM) no conjunto de dados LAION-5B (com 5,85 bilhões de pares imagem-texto, usado para treinar o Stable Diffusion), dos quais 1.008 foram confirmados por entidades externas; o LAION-5B foi removido logo em seguida.

Centralização por idioma: estudo de 2024 de Thompson e outros analisou um corpus de dados da internet composto por 6,38 bilhões de frases e descobriu que 57,1% das frases pertencem a conjuntos paralelos multilíngues, ou seja, é muito provável que sejam conteúdo repetitivo e de baixa qualidade gerado por tradução automática; além disso, essa proporção é ainda maior em idiomas de baixa disponibilidade de dados, sugerindo que os corpora de idiomas de baixa disponibilidade estão sendo contaminados por produtos de tradução automática de baixa qualidade.

Fatos confirmados do desligamento de Gebru e contexto do artigo

O artigo tem seis autores, dos quais quatro são funcionários do Google; quando Gebru recebeu a notificação de demissão, ela estava de férias. O pedido do Google era retirar ou remover a coautoria/nome do funcionário, e, após a recusa de Gebru, ela foi informada da decisão de demissão durante suas férias.

O artigo foi publicado oficialmente em março de 2021. O texto afirma explicitamente que empresas que constroem LLMs, por incentivos financeiros e competitivos, não podem estruturalmente permitir que “segurança e ética” atrasem o lançamento do produto. O caso de demissão de Gebru em si tem sido amplamente citado como uma validação concreta desse argumento estrutural.

Perguntas frequentes

Qual é a principal tese acadêmica do artigo “Papagaio Aleatório”?

De acordo com o próprio artigo, a tese central tem duas camadas: a primeira é técnica, apontando cinco categorias de riscos sistêmicos de LLMs: alucinações, amplificação de vieses, custos ambientais, impossibilidade de auditoria dos dados e centralização por idioma. A segunda camada é mais fundamental: explica por que essas cinco categorias de riscos são difíceis de serem resolvidas, devido a uma tendência estrutural das empresas que constroem LLMs, sob pressão de competição e finanças, de priorizar velocidade em vez de segurança. O artigo foi aprovado no processo de revisão por pares da conferência ACM FAccT.

Como o problema de vieses na ferramenta de recrutamento por IA da Amazon foi descoberto e tratado?

Conforme reportado publicamente, a ferramenta de recrutamento por IA da Amazon vem sendo desenvolvida desde 2014; o modelo foi treinado com dados de currículos históricos predominantemente masculinos ao longo de uma década, aprendendo automaticamente padrões de avaliação que favorecem homens, o que levou a que currículos com termos como “women's chess club” fossem descontados automaticamente. Esse problema de viés foi identificado em 2018; a Amazon, então, descontinuou a ferramenta e confirmou que não a usou para avaliar candidatos reais.

O aumento de emissões no relatório ambiental do Google de 2024 é totalmente atribuído à IA?

De acordo com o relatório ambiental de 2024 do Google, em 2023 as emissões de gases de efeito estufa chegaram a cerca de 14,3 milhões de toneladas métricas de CO₂e, 48% acima da linha de base de 2019. O Google apontou explicitamente que a causa principal foi o aumento significativo do consumo de energia em data centers impulsionado por IA. A explicação do Google não alega que o aumento de emissões tenha sido causado 100% por IA; no entanto, a expansão da infraestrutura de IA foi confirmada como o fator que mais impulsiona o crescimento.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários