Las respuestas de Google generadas con IA fallan 1 de cada 10 veces

Hoy en día, buscar información en Google implica encontrarse con AI Overviews, el robot de búsqueda impulsado por Gemini que aparece en la parte superior de la página de resultados. AI Overviews ha tenido una trayectoria difícil desde su lanzamiento en 2024, atrayendo la ira de los usuarios por su precisión irregular, pero está mejorando y suele proporcionar la respuesta correcta. Sin embargo, los casos en los que se equivoca son significativos.

Un nuevo análisis de The New York Times intentó evaluar la precisión de AI Overviews, concluyendo que acierta el 90% de las veces. La otra cara de la moneda es que 1 de cada 10 respuestas de la IA es incorrecta, y para Google, eso significa cientos de miles de mentiras que se difunden cada minuto del día.

El Times realizó este análisis con la ayuda de una startup llamada Oumi, que se dedica al desarrollo de modelos de IA. La empresa utilizó herramientas generativas para analizar las revisiones de IA con la evaluación SimpleQA, una prueba común para clasificar la veracidad de modelos generativos como Gemini. Publicada por OpenAI en 2024, SimpleQA es esencialmente una lista de más de 4000 preguntas con respuestas verificables que se pueden introducir en una IA.

Oumi comenzó a realizar sus pruebas el año pasado, cuando Gemini 2.5 aún era el mejor modelo de la compañía. En ese momento, la prueba de rendimiento arrojó una tasa de precisión del 85%. Tras la actualización de Gemini 3, al repetirse la prueba, AI Overviews respondió correctamente al 91% de las preguntas. Si extrapolamos esta tasa de errores a todas las búsquedas de Google, AI Overviews genera decenas de millones de respuestas incorrectas al día.

El informe incluye varios ejemplos de errores cometidos por AI Overviews. Al preguntarle por la fecha en que la antigua casa de Bob Marley se convirtió en museo, AI Overviews citó tres páginas, dos de las cuales no mencionaban la fecha en absoluto. La última, Wikipedia, enumeraba dos años contradictorios, y AI Overviews eligió con seguridad el incorrecto. La prueba también solicita a los modelos que produzcan la fecha en que Yo-Yo Ma fue incluido en el Salón de la Fama de la Música Clásica. Si bien AI Overviews citó el sitio web de la organización que indicaba la fecha de ingreso de Ma, afirmó que no existe tal cosa como el Salón de la Fama de la Música Clásica.

La IA por fin alcanza la facultad “metalingüística” que solo tienen los humanos

Si el lenguaje es lo que nos hace humanos, ¿qué significa ahora que los grandes modelos de lenguaje hayan adquirido capacidades “metalingüísticas”?

¿Por qué se equivoca?

Evaluar nuevos modelos de IA a veces se asemeja más a un arte que a una ciencia, lo cual forma parte del problema. Cada empresa tiene su propia manera de demostrar las capacidades de un modelo, y la naturaleza no determinista de la IA generativa dificulta la verificación. Estos robots pueden responder correctamente a una pregunta objetiva y luego fallar por completo si se repite la consulta inmediatamente. Oumi incluso utiliza herramientas de IA para realizar sus evaluaciones, y estos modelos también pueden generar resultados erróneos.

Otro inconveniente es que AI Overviews no utiliza un modelo monolítico. Google explicó a Ars Technica que emplea el modelo adecuado para cada consulta. Si bien AI Overviews obtendría las mejores respuestas con Gemini 3.1 Pro siempre en funcionamiento, esto resulta lento y costoso. Para cargar la información rápidamente en la página de resultados de búsqueda, la herramienta utiliza modelos Gemini Flash más rápidos siempre que sea posible (lo cual parece ser la mayoría de las veces).

La respuesta de Google a este informe es reveladora. En el ámbito de la veracidad de la IA, un 9 sobre 10 no es tan malo. Google ha publicado recientemente pruebas de referencia para los nuevos modelos, con mediciones de veracidad que oscilan entre el 60 y el 80%; estas pruebas se realizan sin herramientas como la búsqueda web. Si bien dotar a la IA de más datos, como la gran cantidad de conocimiento humano disponible en internet, la hace más precisa que el modelo sin información previa, la verdad se encuentra en algún lugar de los enlaces azules, y AI Overviews anima a los usuarios a aceptar sus resúmenes, a veces imprecisos, en lugar de verificar manualmente esas fuentes.

Explore the website

Get email updates with every new article published

Looking for something?

Explore the website

Get email updates with every new article published

Looking for something?

Enjoy the benefits of exclusive reading

Unlock an exclusive experience

Email based subscription

Yearly based subscription

Monthly based subscription

Explore the website

Get email updates with every new article published

Looking for something?

Las respuestas de Google generadas con IA fallan 1 de cada 10 veces

¿Por qué se equivoca?

Get notified whenever we post something new!

Create a website from scratch

Enjoy exclusive access to all of our content

Enjoy the benefits of exclusive reading

Unlock an exclusive experience

Email based subscription

Yearly based subscription

Monthly based subscription

Suscribite para mantenerte informado

Enjoy the benefits of exclusive reading

Unlock an exclusive experience

Email based subscription

Yearly based subscription

Monthly based subscription

Amsonia Menu

Categorias

Contribute as an author