Un nuevo estudio de Oumi, reportado por The New York Times, encontró que las AI Overviews de Google son inexactas el 9% de las veces — lo que se traduce en decenas de millones de respuestas erróneas por hora a escala de Google. Más de la mitad de las respuestas precisas también citaban fuentes que no respaldan completamente sus afirmaciones, mientras que Google calificó el estudio de “gravemente defectuoso”.

Qué significan realmente las cifras a escala de Google

Oumi analizó 4,326 búsquedas respondidas por Gemini 2 en octubre y Gemini 3 en febrero, encontrando que Gemini 2 logró un 85% de precisión mientras que Gemini 3 mejoró hasta el 91%. De manera individual, estas son cifras defendibles para un sistema de IA generativa.

El desafío es el volumen. A una tasa reportada por Google de 5 billones+ de búsquedas por año, las cuentas producen una imagen preocupante:

· ~14 millones de respuestas de IA inexactas generadas cada hora

· ~230,000 respuestas incorrectas entregadas cada minuto

· ~4,000 errores producidos cada segundo en el uso máximo

El argumento de la escala replantea el debate completo sobre la precisión: incluso una tasa de error pequeña, cuando se aplica a un sistema usado por miles de millones de personas, se convierte en un problema de desinformación a gran escala en términos absolutos.

El problema del “grounding”: citas que no se sostienen

Más allá de las cifras de precisión en bruto, Oumi identificó un problema separado y, posiblemente, más preocupante: el “grounding” — si las fuentes citadas en las AI Overviews realmente respaldan las afirmaciones que se hacen. Los hallazgos revelan que Gemini 3, aunque es más preciso que su predecesor, es significativamente peor a la hora de proporcionar citas que sean genuinamente respaldantes.

Bajo Gemini 2, el 37% de las respuestas correctas no tenían grounding. Esa cifra subió al 56% bajo Gemini 3 — lo que significa que la mayoría de las respuestas precisas aún enlazaban a fuentes que no respaldan por completo la información proporcionada. Esto crea un problema de verificación: los usuarios que hacen clic para “confirmar” una respuesta pueden encontrar que la fuente dice algo distinto o está incompleta.

El análisis de fuentes a través de 5,380 referencias citadas también planteó preocupaciones sobre la plataforma. Facebook fue la segunda fuente más citada en general, mientras que Reddit ocupó el cuarto lugar. Ambas son plataformas de redes sociales donde es común el contenido generado por usuarios y no verificado; aparecer en la parte superior de un resultado de búsqueda sintetizado por IA les otorga una autoridad inmerecida. Facebook fue citado en el 5% de las respuestas precisas y en el 7% de las inexactas, lo que sugiere un patrón que vale la pena vigilar.

La defensa de Google: preguntas sobre la metodología y datos internos

Google no aceptó las conclusiones del estudio sin objeciones. El portavoz Ned Adriance cuestionó el diseño fundamental del análisis: Oumi evaluó la precisión de la IA de Google usando su propio modelo de IA, lo que introduce una circularidad metodológica — si el modelo de Oumi también puede cometer errores, sus juicios sobre los errores de Google podrían ser a su vez poco confiables.

“Este estudio tiene vacíos serios”, dijo Adriance. “No refleja lo que la gente realmente está buscando en Google”.

Google también publicó sus propios datos comparativos. La compañía afirmó que Gemini 3 por sí solo — operando sin el contexto adicional proporcionado por AI Overviews — fue inexacto el 28% de las veces, lo que sugiere que el sistema de AI Overviews ofrece mejoras de precisión significativas sobre la salida cruda del modelo. La compañía mantiene su aviso estándar en la parte inferior de todas las AI Overviews: “La IA puede cometer errores, así que verifica dos veces las respuestas”.

FAQ

¿Qué son Google AI Overviews y cuándo se introdujeron?

Google AI Overviews son resúmenes generados por IA que aparecen en la parte superior de los resultados de Google Search, sintetizando respuestas a consultas de los usuarios y citando fuentes web de respaldo. Impulsadas por los modelos Gemini de Google, la función se introdujo de forma amplia en 2024 y ahora aparece en miles de millones de búsquedas en todo el mundo. Son distintas de los resultados de búsqueda estándar, ya que generan texto en lugar de simplemente listar enlaces.

¿Qué significa “ungrounded” en este contexto y por qué importa?

Se considera que una AI Overview está “ungrounded” cuando los sitios web que cita no verifican realmente ni respaldan completamente la información presentada en el resumen. Esto es problemático porque los usuarios que intentan comprobar una afirmación haciendo clic en la fuente citada pueden encontrar que la fuente contradice, respalda parcialmente o no tiene relación alguna con lo que el sistema de IA afirma — socavando el papel del sistema como herramienta fiable de información y haciendo más difícil la verificación independiente.

¿Cómo deberían abordar los usuarios las AI Overviews dado estos problemas de precisión?

Google reconoce por sí mismo la limitación con su aviso integrado de que la IA puede cometer errores. Para consultas de bajo riesgo, las AI Overviews pueden proporcionar un punto de partida útil. Para decisiones de salud, legales, financieras o basadas en hechos, los usuarios deberían verificar de forma independiente la información mediante fuentes autorizadas y primarias, en lugar de confiar únicamente en resúmenes sintetizados por IA. Se recomienda revisar las fuentes citadas directamente — en vez de aceptar la caracterización de la IA sobre ellas —.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.

Comentar

0/400

Sin comentarios