Autor: Moonshot
Em 1947, Alan Turing mencionou em uma palestra que “o que queremos é uma máquina capaz de aprender com a experiência”.
78 anos depois, o Prêmio Turing, nomeado em homenagem a Turing e conhecido como o ‘Nobel da computação’, foi concedido a dois cientistas que dedicaram suas vidas à resolução do problema de Turing.
Andrew Barto e Richard Sutton foram conjuntamente premiados com o Prêmio Turing de 2024. Com uma diferença de nove anos de idade, são mestre e aprendiz, e são os pioneiros das tecnologias AlphaGo e ChatGPT, bem como pioneiros no campo da aprendizagem automática.
Os vencedores do Prêmio Turing Andrew Barto e Richard Sutton
Fonte da imagem: site oficial do Prêmio Turing
O chefe de ciência da Google, Jeff Dean, escreveu no discurso de premiação: ‘A tecnologia de aprendizado por reforço iniciada por Barto e Sutton responde diretamente à pergunta de Turing. O trabalho deles foi fundamental para o avanço da IA nas últimas décadas. As ferramentas que eles desenvolveram ainda são o pilar central da prosperidade da IA… A Google tem a honra de patrocinar o Prêmio ACM A.M. Turing.’
O único patrocinador do Prêmio Turing de US $ 1 milhão é o Google.
E depois de ganhar, os dois cientistas sob os holofotes apontam para grandes empresas de IA, emitindo um ‘discurso de agradecimento’ à imprensa: as empresas de IA atuais estão ‘sendo impulsionadas por incentivos comerciais’ em vez de se concentrarem na pesquisa tecnológica, construindo ‘uma ponte não testada na sociedade para as pessoas atravessarem e testarem’.
Não é coincidência que o Prêmio Turing tenha sido concedido a cientistas do campo da inteligência artificial pela última vez na edição de 2018, com Joshua Bengio, Geoffrey Hinton e Yann LeCun premiados por suas contribuições no campo do aprendizado profundo.
Vencedores do Prêmio Turing de 2018
Fonte da imagem: eurekalert
Entre eles, Joshua Ben-Ahio e Jeffrey Sinton (também vencedor do Prêmio Nobel de Física em 2024) os dois ‘pais da inteligência artificial’ têm frequentemente alertado nos últimos dois anos, durante a onda de IA, a sociedade global e a comunidade científica sobre o abuso da inteligência artificial por grandes empresas.
Jeffrey Sutton even resigned directly from Google in order to “speak freely”, this award-winning Sutton, also served as a research scientist at DeepMind from 2017 to 2023.
À medida que os pioneiros da tecnologia central de IA continuam a receber as mais altas honrarias da comunidade de computação, um fenômeno intrigante começa a surgir:
Por que esses cientistas de topo nessas estações sempre viram as costas para tocar o alarme de IA sob os holofotes?
O ‘construtor de pontes’ da inteligência artificial
Se Alan Turing é o guia da inteligência artificial, Andrew Barto e Richard Sutton são os “construtores de pontes” neste caminho.
Enquanto a inteligência artificial avança e é elogiada, eles estão reexaminando as pontes que construíram para ver se podem suportar a passagem segura dos humanos.
Talvez a resposta esteja escondida em sua carreira acadêmica de meio século - só olhando para trás em como eles construíram a ‘aprendizagem das máquinas’, podemos entender por que eles estão alerta para o ‘descontrole tecnológico’.
Fonte da imagem: Universidade Carnegie Mellon
Em 1950, Alan Turing levantou no início de seu famoso artigo ‘Computing Machinery and Intelligence’ uma questão filosófica e técnica:
“Pode uma máquina pensar?”
Assim, Turing projetou o “jogo da imitação”, conhecido mais tarde como o “Teste de Turing”.
Ao mesmo tempo, Turing propôs que a inteligência artificial pode ser adquirida por meio da aprendizagem, em vez de depender apenas da programação prévia. Ele imaginou o conceito de ‘Máquina Infantil’, ou seja, treinar e permitir que as máquinas aprendam gradualmente como as crianças.
O objetivo central da inteligência artificial é construir um agente inteligente capaz de perceber e agir de forma mais eficaz, e a medida da inteligência é a capacidade do agente de julgar que “algumas ações são melhores do que outras”.
O objetivo da aprendizagem automática é dar ao computador feedback sobre a ação tomada e permitir que o computador aprenda autonomamente com a experiência do feedback. Em outras palavras, o conceito de Turing de aprendizagem por recompensa e punição é semelhante ao treinamento de cães de Pavlov.
À medida que jogo mais no jogo, fico cada vez mais forte, o que também é uma forma de ‘aprendizagem reforçada’.
Fonte da imagem: zquence.ai
A jornada de aprendizado de máquina iniciada por Alan Turing só foi completada três décadas depois, quando um mestre e seu aprendiz construíram a ponte - Aprendizado por Reforço (Reinforcement Learning, RL).
Em 1977, inspirado pela psicologia e neurociência, Andrew Barto começou a explorar uma nova teoria da inteligência humana: os neurónios são como ‘hedonistas’, com bilhões de células nervosas no cérebro humano, cada uma tentando maximizar a felicidade (recompensa) e minimizar a dor (punição). Além disso, os neurônios não apenas recebem e transmitem sinais mecanicamente; se o padrão de atividade de um neurônio leva a um feedback positivo, ele tenderá a repetir esse padrão, impulsionando assim o processo de aprendizagem humana.
Na década de 1980, Barto trouxe seu aluno de doutorado, Richard Sutton, com ele para aplicar a teoria dos neurônios de ‘tentativa e erro contínuos, ajustando conexões com base no feedback para encontrar o padrão de comportamento ideal’ em inteligência artificial, dando origem à aprendizagem por reforço.
O livro “Aprendizado por Reforço: Uma Introdução” tornou-se um clássico e foi citado quase 80000 vezes.
Fonte da imagem: IEEE
O mestre e o aprendiz usaram a base matemática do processo de decisão de Markov para desenvolver e escrever muitos algoritmos principais de aprendizado por reforço, construindo sistematicamente o arcabouço teórico do aprendizado por reforço, e escreveram o livro didático “Aprendizado por Reforço: Uma Introdução”, permitindo que dezenas de milhares de pesquisadores entrassem no campo do aprendizado por reforço, sendo ambos considerados os pais do aprendizado por reforço.
Eles estudam o reforço da aprendizagem com o objetivo de descobrir o método de aprendizagem de máquina mais eficiente e preciso, que maximize a recompensa e otimize a ação.
A ‘mão divina’ do aprendizado por reforço
Se a aprendizagem automática é uma forma de aprendizagem “de enchimento”, então a aprendizagem reforçada é uma forma de aprendizagem “de criação”.
A aprendizagem automática tradicional é alimentar o modelo com uma grande quantidade de dados rotulados para estabelecer uma relação de mapeamento fixa entre a entrada e a saída. O cenário mais clássico é mostrar ao computador um monte de fotos de gatos e cães e dizer-lhe qual é um gato, qual é um cão. Desde que sejam fornecidas imagens suficientes, o computador será capaz de reconhecer gatos e cães.
O aprendizado por reforço é quando, sem orientação explícita, a máquina ajusta gradualmente seu comportamento para otimizar os resultados por meio de tentativa e erro e de mecanismos de recompensa e punição. É como um robô aprendendo a andar; não precisa que os humanos o instruam constantemente dizendo “este passo está certo, aquele errado”. Ele apenas tenta, cai, se ajusta e, no final, aprende a andar sozinho, até mesmo desenvolvendo seu próprio estilo de caminhar.
É evidente que os princípios do reforço do aprendizado estão mais próximos da inteligência humana, assim como cada criança aprende a andar quando cai, aprende a agarrar quando explora, captura sílabas enquanto balbucia e aprende a linguagem.
Por trás do ‘Robô de Chute Giratório Flamejante’ também está o treinamento de aprendizado por reforço.
Fonte da imagem: Tecnologia Yushu
O ‘momento alto’ do reforço de aprendizagem foi o ‘movimento divino’ do AlphaGo em 2016. Na altura, durante o jogo com Lee Sedol, na 37ª jogada, o AlphaGo fez uma jogada de pedra branca que surpreendeu todos, revertendo a situação desfavorável e ganhando a partida contra Lee Sedol.
Os principais jogadores de Go e comentaristas não esperavam que o AlphaGo jogasse nessa posição, porque na experiência dos jogadores humanos, esta jogada era ‘incompreensível’, e após o jogo, Lee Sedol admitiu que nunca considerou essa jogada.
AlphaGo não se baseia em memorizar jogadas de Go para obter o “movimento divino”, mas sim em inúmeras autojogadas, tentativa e erro, planejamento de longo prazo e otimização de estratégias para explorar autonomamente, o que é a essência da aprendizagem reforçada.
Lee Sedol, whose rhythm was disrupted by AlphaGo’s ‘divine move’
Fonte da imagem: AP
A aprendizagem por reforço até inverte o jogo e afeta a inteligência humana, assim como os jogadores de Go começaram a aprender e estudar as jogadas de IA depois do AlphaGo revelar a “mão divina”. Os cientistas também estão a utilizar algoritmos e princípios de aprendizagem por reforço para tentar compreender o mecanismo de aprendizagem do cérebro humano. Um dos resultados da pesquisa de Barto e Santo é a criação de um modelo computacional para explicar o papel da dopamina na tomada de decisões e aprendizagem humanas.
Além disso, o reforço da aprendizagem é especialmente bom em lidar com ambientes complexos e mutáveis, e encontrar a melhor solução, como no go, na condução autónoma, no controlo de robôs e em conversas enigmáticas com humanos.
Estas são atualmente as áreas de aplicação de IA mais avançadas e populares, especialmente em grandes modelos de linguagem, quase todos os principais modelos de linguagem utilizam o método de treino RLHF (Reforço de Aprendizagem a partir do Feedback Humano), ou seja, os humanos avaliam as respostas do modelo e o modelo melhora com base no feedback.
Mas é precisamente esta a preocupação de Barto: as grandes empresas constroem pontes e testam a segurança das mesmas fazendo as pessoas caminharem de um lado para o outro na ponte.
“Empurrar software diretamente para milhões de usuários sem qualquer medida de segurança não é uma prática responsável”, disse Barto em uma entrevista após receber o prêmio.
O desenvolvimento da tecnologia deveria ser acompanhado pelo controle e mitigação dos potenciais impactos negativos, mas não vejo essas empresas de IA realmente fazendo isso." ele acrescentou.
O que é que o AI top stream está preocupado afinal?
A teoria da ameaça da IA não tem fim, porque os cientistas têm mais medo de um futuro que criaram com as próprias mãos e que está fora de controle.
As ‘remarks of the winners’ of Barto and Sandton, there is no criticism of the current AI technology, but a great deal of dissatisfaction with AI companies.
Eles alertaram em entrevistas que o atual desenvolvimento da inteligência artificial depende de grandes empresas lançando modelos poderosos, porém propensos a erros, para arrecadar fundos significativos e continuar investindo bilhões de dólares em uma corrida armamentista de chips e dados.
Todos os grandes bancos de investimento estão a reavaliar a indústria de IA
Fonte da imagem: Goldman Sachs
De acordo com uma pesquisa do Deutsche Bank, os investimentos totais dos gigantes da tecnologia no campo da IA atualmente somam cerca de 3400 bilhões de dólares, ultrapassando o PIB anual da Grécia. O líder da indústria, OpenAI, está avaliado em 2600 bilhões de dólares e está se preparando para lançar uma nova rodada de financiamento de 400 bilhões de dólares.
Na verdade, muitos especialistas em IA concordam com a visão de Bato e Sandton.
Anteriormente, o ex-executivo da Microsoft, Stephen Sinofsky, afirmou que a indústria de IA está enfrentando um dilema de escala, dependendo do dinheiro para avanços tecnológicos, o que não está de acordo com a tendência histórica de redução de custos em vez de aumento.
Em 7 de março, o ex-CEO do Google, Eric Schmidt, o fundador da Scale AI, Alex Wang, e o diretor do Centro de Segurança de IA, Dan Hendricks, publicaram em conjunto um artigo de alerta.
Três líderes de topo do setor de tecnologia acreditam que a situação atual do desenvolvimento de inteligência artificial no campo de ponta é semelhante à corrida armamentista que deu origem ao Projeto Manhattan. As empresas de IA estão secretamente realizando seu próprio ‘Projeto Manhattan’, e nos últimos quase dez anos, o investimento delas em IA tem dobrado a cada ano. Sem uma intervenção regulatória, a IA pode se tornar a tecnologia mais instável desde a bomba atômica.
Estratégia de Superinteligência e Co-autores
Fonte da imagem: nationalsecurity.ai
O laureado com o Prêmio Turing em 2019, Yoshua Bengio, que ganhou o Prêmio Turing em 2019 por seu trabalho em deep learning, também alertou em seu blog que a indústria de IA agora vale trilhões de dólares, o que atrai e provoca a cobiça de capitais, e tem o poder de causar sérios danos à ordem mundial atual.
Muitos profissionais de tecnologia de várias origens acreditam que a indústria de IA de hoje se afastou da pesquisa tecnológica, da avaliação da inteligência e do alerta contra o abuso tecnológico, e seguiu em direção a um grande capitalismo de investimento em chips.
Construir um centro de dados gigante, receber dinheiro dos usuários e ainda fazê-los usar software potencialmente inseguro não é uma motivação com a qual eu concorde. - disse Barto em uma entrevista após receber o prêmio.
E na primeira edição do ‘Relatório Científico Internacional sobre a Segurança da Inteligência Artificial Avançada’, escrita por 75 especialistas em IA de 30 países, afirma-se que ‘Os métodos de gestão de riscos da inteligência artificial geral muitas vezes se baseiam na suposição de que os desenvolvedores de IA e os formuladores de políticas podem avaliar corretamente as capacidades e impactos potenciais de modelos e sistemas de AGI. No entanto, a compreensão científica das operações internas, capacidades e impactos sociais da AGI é, na verdade, muito limitada.’
O Alerta Longo de Joshua Benhio
Fonte da imagem: Yoshua Bengio
Não é difícil ver que o atual ‘discurso de ameaça da IA’ mudou seu foco das questões técnicas para as grandes empresas.
Os especialistas estão a avisar as grandes empresas: vocês estão a gastar dinheiro, a acumular materiais, a enrolar parâmetros, mas vocês realmente compreendem os produtos que estão a desenvolver? Esta é também a origem da metáfora ‘construir pontes’ usada por Barto e Sandton, pois a tecnologia pertence a toda a humanidade, mas o capital pertence apenas às grandes empresas.
Além disso, Barto e Sutton têm se dedicado à área de pesquisa de Aprendizado por Reforço. Seu princípio é mais compatível com a inteligência humana e possui características de ‘caixa preta’, especialmente no Aprendizado por Reforço Profundo, no qual os padrões de comportamento da IA se tornam complexos e difíceis de explicar.
Esta é também a preocupação dos cientistas humanos: eles ajudam e testemunham o crescimento da inteligência artificial, mas têm dificuldade em interpretar as suas intenções.
E os vencedores do Prêmio Turing que criaram as tecnologias de aprendizado profundo e de reforço não estão preocupados com o desenvolvimento da IA geral (AGI), mas sim com a corrida armamentista entre grandes empresas que pode resultar em uma ‘explosão de inteligência’ no campo da AGI, inadvertidamente levando à criação de uma IA superinteligente (ASI). A distinção entre os dois não se limita a questões técnicas, mas também diz respeito ao futuro da civilização humana.
A ASI, que ultrapassa a inteligência humana, com a quantidade de informações que domina, a velocidade de tomada de decisões e o nível de auto-evolução, estará muito além da compreensão humana. Se a ASI não for projetada e governada com extrema cautela, ela poderá se tornar o último e incontrolável ponto de singularidade tecnológica da história humana.
No meio da febre da IA, esses cientistas podem ser os mais qualificados para “atirar água fria”. Afinal, há cinquenta anos, quando o computador ainda era uma grande novidade, eles já haviam iniciado a pesquisa no campo da inteligência artificial. Eles moldaram o presente a partir do passado e têm o direito de duvidar do futuro.
Os líderes em IA enfrentarão um destino ao estilo de Oppenheimer?
Fonte da imagem: The Economist
Na entrevista de fevereiro da The Economist, o CEO da DeepMind e da Anthropic afirmou:
Ficar acordado a noite toda, preocupado em se tornar o próximo Alzheimer.