Los ganadores del Premio Turing temen convertirse en el 'Albert Einstein' de la IA.

DeepFlowTech

2025-03-11 09:44:02

Autor: Moonshot

En 1947, Alan Turing mencionó en una conferencia: “Lo que queremos es una máquina que pueda aprender de la experiencia”.

78年后，el Premio Turing, que lleva el nombre de Turing y es conocido como el ‘Premio Nobel’ de la informática, fue otorgado a dos científicos que dedicaron su vida a resolver el problema de Turing.

Andrew Barto y Richard Sutton ganaron juntos el Premio Turing 2024. A pesar de tener una diferencia de edad de nueve años, son maestro y aprendiz. Son los pioneros tecnológicos detrás de AlphaGo y ChatGPT, también son pioneros tecnológicos en el campo del aprendizaje automático.

Los ganadores del Premio Turing Andrew Barto y Richard Sutton

Fuente de la imagen: Sitio web oficial del Premio Turing

El científico jefe de Google, Jeff Dean, escribió en su discurso de premiación: “La tecnología de aprendizaje reforzado creada por Barto y Sutton responde directamente a la pregunta de Turing. Su trabajo ha sido clave para el avance de la IA en las últimas décadas. Las herramientas que desarrollaron siguen siendo fundamentales para la prosperidad de la IA… Google se siente honrado de patrocinar el Premio ACM A.M. Turing”.

El único patrocinador del premio de 1 millón de dólares del Premio Turing es Google.

Pero después de ganar, los dos científicos que estaban bajo los reflectores apuntaron a las grandes empresas de IA, emitiendo un ‘discurso de aceptación’ a los medios de comunicación: las empresas de IA actuales están ‘siendo impulsadas por incentivos comerciales’ en lugar de enfocarse en la investigación tecnológica, construyendo ‘un puente no probado en la sociedad para que la gente lo cruce y lo pruebe’.

No es coincidencia que el último Premio Turing otorgado a científicos en el campo de la inteligencia artificial fue en 2018, cuando Joshua Benjio, Geoffrey Hinton y Yann LeCun fueron premiados por sus contribuciones en el campo del aprendizaje profundo.

Los ganadores del Premio Turing de 2018

Fuente de la imagen: eurekalert

Entre ellos, los dos ‘padres de la inteligencia artificial’, Joshua Benhio y Geoffrey Hinton (también ganadores del Premio Nobel de Física 2024), han estado instando con frecuencia a la sociedad global y a la comunidad científica a estar alerta sobre el abuso de la inteligencia artificial por parte de las grandes empresas en la reciente ola de IA en los últimos dos años.

Jeffrey Sutton also resigned directly from Google in order to ‘speak freely’, and this award-winning Sutton also served as a research scientist at DeepMind from 2017 to 2023.

A medida que los pioneros de la tecnología central de IA una y otra vez reciben el mayor honor en el mundo de la informática, comienza a surgir un fenómeno interesante:

¿Por qué estos científicos de élite siempre giran bajo el foco de atención para tocar la campana de alarma de la IA?

El ‘constructor de puentes’ de la inteligencia artificial

Si Alan Turing es el guía de la inteligencia artificial, entonces Andrew Barto y Richard Sutton son los “constructores de puentes” en este camino.

En medio del auge de la inteligencia artificial, después de recibir elogios, están revisando si los puentes que han construido pueden soportar el paso seguro de los humanos?

Tal vez la respuesta esté en su trayectoria académica de medio siglo: solo al rastrear cómo construyeron el ‘aprendizaje automático’ se puede entender por qué están alerta ante la ‘fuga de tecnología’.

Fuente de la imagen: Universidad Carnegie Mellon

En 1950, Alan Turing planteó al comienzo de su famoso artículo ‘Computing Machinery and Intelligence’ una cuestión filosófica y técnica:

「¿Puede pensar la máquina?」

Con esto, Turing diseñó el “juego de imitación”, también conocido en el futuro como la “Prueba de Turing”.

Alan Turing propuso que la inteligencia artificial puede ser adquirida a través del aprendizaje, en lugar de depender únicamente de la programación previa. Él imaginó el concepto de la ‘Máquina Infantil’, donde a través de la formación y la experiencia, la máquina aprende gradualmente como lo haría un niño.

El objetivo central de la inteligencia artificial es construir un agente inteligente que pueda percibir y tomar mejores acciones, y la medida de la inteligencia es la capacidad del agente para juzgar que algunas acciones son mejores que otras.

El propósito del aprendizaje automático es dar retroalimentación a las máquinas después de la acción y permitirles aprender de la experiencia de forma autónoma. En otras palabras, el enfoque de Turing en el aprendizaje automático basado en recompensas y castigos no difiere mucho del adiestramiento de perros de Pavlov.

Me vuelvo más fuerte cuanto más juego en el juego, también es una forma de ‘aprendizaje por refuerzo’

Fuente de la imagen: zequance.ai

El camino del aprendizaje automático introducido por Turing solo se construyó treinta años después por un par de maestro y aprendiz: el aprendizaje por refuerzo (Reinforcement Learning, RL).

En 1977, Andrew Barto, inspirado por la psicología y la neurociencia, comenzó a explorar una nueva teoría de la inteligencia humana: las neuronas son como ‘hedonistas’, miles de millones de células nerviosas en el cerebro humano, cada una tratando de maximizar el placer (recompensa) y minimizar el dolor (castigo). Y las neuronas no solo reciben y transmiten señales mecánicamente, si el patrón de actividad de una neurona provoca retroalimentación positiva, tenderá a repetir ese patrón, así impulsando conjuntamente el proceso de aprendizaje humano.

En la década de 1980, Barto llevó a su estudiante de doctorado, Richard Sutton, para aplicar esta teoría de neuronas de ‘prueba y error, ajuste según la retroalimentación, encontrar el mejor patrón de comportamiento’ en la inteligencia artificial, dando así origen al aprendizaje reforzado.

El libro ‘Reinforcement Learning: An Introduction’ se ha convertido en un texto clásico y ha sido citado casi 80000 veces.

Fuente de la imagen: IEEE

El dúo de maestros y aprendices utilizó las bases matemáticas del proceso de decisión de Markov para desarrollar y escribir muchos algoritmos centrales de aprendizaje por refuerzo, construyendo sistemáticamente el marco teórico del aprendizaje por refuerzo. También escribieron el libro de texto ‘Aprendizaje por refuerzo: una introducción’, permitiendo que decenas de miles de investigadores ingresen al campo del aprendizaje por refuerzo, siendo ambos considerados padres del aprendizaje por refuerzo.

Y su objetivo al estudiar el aprendizaje por refuerzo es descubrir un método de aprendizaje automático eficiente, preciso, maximizador de recompensas y con la mejor acción.

La ‘mano de Dios’ del aprendizaje reforzado

Si el aprendizaje automático se considera como un aprendizaje de tipo ‘decanato’, entonces el aprendizaje por refuerzo es un aprendizaje de tipo ‘crianza’.

El aprendizaje automático tradicional implica alimentar al modelo con una gran cantidad de datos etiquetados para establecer una relación de mapeo fija entre la entrada y la salida. El escenario más clásico es mostrar a la computadora una serie de fotos de gatos y perros, indicándole cuál es un gato y cuál es un perro. Si se le proporcionan suficientes imágenes, la computadora podrá reconocer a los gatos y perros.

El aprendizaje por refuerzo es cuando una máquina ajusta gradualmente su comportamiento para optimizar los resultados sin una guía explícita, a través de ensayo y error y mecanismos de recompensa y castigo. Es como un robot aprendiendo a caminar, no necesita que los humanos le digan constantemente “esto está bien, aquello está mal”, solo tiene que intentarlo, caerse, ajustarse y eventualmente aprenderá a caminar, e incluso desarrollará su propio estilo único de caminar.

Es evidente que el principio del aprendizaje reforzado se acerca más a la inteligencia humana, al igual que cada niño pequeño aprende a caminar al caer, aprende a agarrar en la exploración, captura los fonemas en el balbuceo, y aprende el lenguaje.

Detrás del ‘Robot de patadas giratorias ardientes’ también hay un entrenamiento de refuerzo de aprendizaje.

Fuente de la imagen: Tecnología Yushu

El ‘momento estelar’ del aprendizaje por refuerzo fue la ‘jugada divina’ de AlphaGo en 2016. En aquel entonces, AlphaGo sorprendió a todos con una jugada en la 37ª mano durante su partida contra Lee Sedol, una jugada de blanco que revirtió la situación desfavorable y llevó a la victoria sobre Lee Sedol.

Los principales expertos y comentaristas de go no esperaban que AlphaGo colocara una piedra en esta posición, ya que en la experiencia de los jugadores humanos, este movimiento fue completamente inesperado. Después del partido, Lee Sedol admitió que nunca había considerado esta jugada.

AlphaGo no se basa en memorizar movimientos de ajedrez para crear la ‘jugada divina’, sino que la ha explorado de forma autónoma a través de innumerables juegos contra sí mismo, probando, planificando a largo plazo y optimizando estrategias, lo cual es la esencia del aprendizaje por refuerzo.

Lee Sedol, whose rhythm was disrupted by AlphaGo’s “divine hand”

Fuente de la imagen: AP

El aprendizaje reforzado incluso puede invertir la situación y afectar la inteligencia humana, al igual que cuando AlphaGo mostró su ‘movimiento divino’, los jugadores de ajedrez comenzaron a estudiar y aprender las jugadas de IA en el go. Los científicos también están utilizando algoritmos y principios de aprendizaje reforzado para intentar comprender el mecanismo de aprendizaje del cerebro humano. Uno de los logros de la investigación de Barto y Santo es el desarrollo de un modelo computacional para explicar el papel de la dopamina en la toma de decisiones y el aprendizaje humanos.

Además, el aprendizaje por refuerzo es especialmente bueno para manejar entornos con reglas complejas y estados variables, y encontrar la solución óptima, como en el go, la conducción autónoma, el control de robots y la interacción con humanos de una manera que no está clara.

Estos son los campos de aplicación de IA más avanzados y populares en la actualidad, especialmente en modelos de lenguaje de gran tamaño, casi todos los principales modelos de lenguaje utilizan el método de entrenamiento RLHF (aprendizaje reforzado a partir de retroalimentación humana), es decir, los humanos califican las respuestas del modelo y el modelo se mejora según la retroalimentación.

Pero esa es precisamente la preocupación de Barto: las grandes empresas construyen un puente y luego prueban su seguridad haciendo que la gente camine de un lado a otro por él.

“Empujar el software directamente a millones de usuarios sin ninguna medida de seguridad no es una práctica responsable,” dijo Bato en una entrevista después de ganar el premio.

“El desarrollo de la tecnología debería ir acompañado del control y la prevención de los posibles impactos negativos, pero no veo que estas empresas de inteligencia artificial realmente lo hagan”, agregó.

¿Qué es exactamente lo que preocupa a los principales expertos en inteligencia artificial?

La amenaza de la IA nunca termina, ya que los científicos temen especialmente un futuro que ellos mismos han creado esté fuera de control.

En el ‘discurso de aceptación’ de Bato y Sandton, no hay críticas severas a la tecnología AI actual, sino que está llena de descontento hacia las empresas de AI.

En las entrevistas, advierten que el desarrollo actual de la inteligencia artificial se basa en modelos potentes pero propensos a errores lanzados por grandes empresas, que recaudan grandes cantidades de fondos para seguir invirtiendo miles de millones de dólares en una carrera armamentística de chips y datos.

Todas las grandes instituciones financieras están revaluando la industria de la inteligencia artificial

Fuente de la imagen: Goldman Sachs

De hecho, según un estudio del Deutsche Bank, la inversión total de los gigantes tecnológicos en el campo de la IA es de aproximadamente 3400 mil millones de dólares, una cifra que ya supera el PIB anual de Grecia. El líder de la industria, OpenAI, tiene una valoración de 2600 mil millones de dólares y se está preparando para lanzar una nueva ronda de financiación de 400 mil millones de dólares.

De hecho, muchos expertos en IA coinciden con la opinión de Bato y Sandton.

Anteriormente, el ex ejecutivo de Microsoft Stephen Sinofsky dijo que la industria de la inteligencia artificial se ha visto atrapada en una crisis de escala, dependiendo del gasto de dinero para avanzar tecnológicamente, lo cual no concuerda con la tendencia en la historia del desarrollo tecnológico, donde los costos tienden a disminuir en lugar de aumentar.

El 7 de marzo, el ex CEO de Google, Eric Schmidt, el fundador de Scale AI, Alex Wang, y el director del Centro de Seguridad de IA, Dan Hendriks, publicaron conjuntamente un documento de advertencia.

Tres principales figuras en el círculo tecnológico creen que la situación actual del desarrollo en el campo de la inteligencia artificial es similar a la competencia por armas nucleares que dio lugar al Proyecto Manhattan. Las empresas de IA están llevando a cabo sus propios ‘Proyectos Manhattan’ en secreto, ya que han estado duplicando sus inversiones en IA cada año en la última década. Sin intervención regulatoria, la IA podría convertirse en la tecnología más inestable desde la creación de la bomba nuclear.

“Estrategia de superinteligencia” y sus coautores

Fuente de la imagen: nationalsecurity.ai

El galardonado con el premio Turing en 2019, Yoshua Bengio, que también advirtió en su blog, señaló que la industria de la IA ahora vale trillones de dólares, lo que atrae la atención y la competencia de los capitales, y tiene un impacto suficiente para socavar seriamente el orden mundial actual.

Muchos tecnólogos con formación técnica creen que la industria de la IA de hoy en día se ha desviado del estudio de la tecnología, la evaluación de la inteligencia y la vigilancia del abuso tecnológico, y ha seguido un modelo de capital intensivo centrado en la ganancia, en lugar de ello.

Construir un enorme centro de datos, recibir dinero de los usuarios y hacer que utilicen software no necesariamente seguro no es un motivo con el que esté de acuerdo", dijo Barto en una entrevista después de ganar el premio.

El primer informe científico internacional sobre la seguridad de la inteligencia artificial avanzada, redactado por 75 expertos en IA de 30 países, señala que ‘los métodos para gestionar los riesgos de la inteligencia artificial generalmente se basan en la suposición de que los desarrolladores de IA y los responsables políticos pueden evaluar correctamente las capacidades y el impacto potencial de los modelos y sistemas de AGI. Sin embargo, la comprensión científica de la operación interna, las capacidades y el impacto social de la AGI es en realidad muy limitada.’

El largo mensaje de advertencia de Joshua Benhio

Fuente de la imagen: Yoshua Bengio

No es difícil ver que la actual ‘teoría de amenaza de IA’ ha cambiado su enfoque de la tecnología a las grandes empresas.

Los expertos advierten a las grandes empresas: ¿Están quemando dinero, acumulando materiales, enrollando parámetros, pero realmente entienden los productos que están desarrollando? Esta es también la razón por la que Barto y Sandton usan la metáfora de “construir puentes”, porque la tecnología pertenece a toda la humanidad, pero el capital solo pertenece a las grandes empresas.

Además, el campo de investigación de Bato y Sandton ha sido durante mucho tiempo: el aprendizaje reforzado. Su principio es más acorde con la inteligencia humana y tiene características de “caja negra”, especialmente en el aprendizaje reforzado profundo, donde los patrones de comportamiento de la IA se vuelven complejos e ininteligibles.

Esta también es la preocupación de los científicos humanos: ayudar y presenciar el crecimiento de la inteligencia artificial, pero es difícil interpretar sus intenciones.

Los ganadores del Premio Turing que han creado tecnologías de aprendizaje profundo y refuerzo no están preocupados por el desarrollo de la IAG (inteligencia artificial general), sino por la carrera armamentista entre las grandes empresas que podría resultar en una ‘explosión de inteligencia’ en el campo de la IAG y, sin darse cuenta, dar lugar a una IAS (inteligencia artificial superinteligente). La distinción entre ambas no es solo un problema técnico, sino que también concierne al futuro del destino de la civilización humana.

El ASI, que supera la inteligencia humana, con la cantidad de información que maneja, la velocidad de toma de decisiones, y el nivel de autoevolución, estará mucho más allá del alcance de la comprensión humana. Si no se diseña y gobierna el ASI con extrema precaución, podría convertirse en el último y más incontrolable punto de inflexión tecnológico en la historia humana.

En medio de la fiebre por la IA, estos científicos pueden ser los más calificados para ‘arrojar agua fría’. Después de todo, hace cincuenta años, cuando la computadora aún era un monstruo, ya habían iniciado la investigación en el campo de la inteligencia artificial. Han dado forma al presente a partir del pasado y tienen la posición para cuestionar el futuro.

¿Los líderes en IA enfrentarán un final al estilo de Oppenheimer?

Fuente de la imagen: The Economist

En una entrevista de febrero en The Economist, los CEO de DeepMind y Anthropic declararon:

Preocuparse por convertirse en el próximo Alzheimer y pasar la noche en vela.

Ver originales

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Comentar

0/400

Sin comentarios