
Hoy en día, buscar información en Google implica encontrarse con AI Overviews, el robot de búsqueda impulsado por Gemini que aparece en la parte superior de la página de resultados. AI Overviews ha tenido una trayectoria difícil desde su lanzamiento en 2024, atrayendo la ira de los usuarios por su precisión irregular, pero está mejorando y suele proporcionar la respuesta correcta. Sin embargo, los casos en los que se equivoca son significativos.
Un nuevo análisis de The New York Times intentó evaluar la precisión de AI Overviews, concluyendo que acierta el 90% de las veces. La otra cara de la moneda es que 1 de cada 10 respuestas de la IA es incorrecta, y para Google, eso significa cientos de miles de mentiras que se difunden cada minuto del día.
El Times realizó este análisis con la ayuda de una startup llamada Oumi, que se dedica al desarrollo de modelos de IA. La empresa utilizó herramientas generativas para analizar las revisiones de IA con la evaluación SimpleQA, una prueba común para clasificar la veracidad de modelos generativos como Gemini. Publicada por OpenAI en 2024, SimpleQA es esencialmente una lista de más de 4000 preguntas con respuestas verificables que se pueden introducir en una IA.
Oumi comenzó a realizar sus pruebas el año pasado, cuando Gemini 2.5 aún era el mejor modelo de la compañía. En ese momento, la prueba de rendimiento arrojó una tasa de precisión del 85%. Tras la actualización de Gemini 3, al repetirse la prueba, AI Overviews respondió correctamente al 91% de las preguntas. Si extrapolamos esta tasa de errores a todas las búsquedas de Google, AI Overviews genera decenas de millones de respuestas incorrectas al día.
El informe incluye varios ejemplos de errores cometidos por AI Overviews. Al preguntarle por la fecha en que la antigua casa de Bob Marley se convirtió en museo, AI Overviews citó tres páginas, dos de las cuales no mencionaban la fecha en absoluto. La última, Wikipedia, enumeraba dos años contradictorios, y AI Overviews eligió con seguridad el incorrecto. La prueba también solicita a los modelos que produzcan la fecha en que Yo-Yo Ma fue incluido en el Salón de la Fama de la Música Clásica. Si bien AI Overviews citó el sitio web de la organización que indicaba la fecha de ingreso de Ma, afirmó que no existe tal cosa como el Salón de la Fama de la Música Clásica.
¿Por qué se equivoca?
Evaluar nuevos modelos de IA a veces se asemeja más a un arte que a una ciencia, lo cual forma parte del problema. Cada empresa tiene su propia manera de demostrar las capacidades de un modelo, y la naturaleza no determinista de la IA generativa dificulta la verificación. Estos robots pueden responder correctamente a una pregunta objetiva y luego fallar por completo si se repite la consulta inmediatamente. Oumi incluso utiliza herramientas de IA para realizar sus evaluaciones, y estos modelos también pueden generar resultados erróneos.
Otro inconveniente es que AI Overviews no utiliza un modelo monolítico. Google explicó a Ars Technica que emplea el modelo adecuado para cada consulta. Si bien AI Overviews obtendría las mejores respuestas con Gemini 3.1 Pro siempre en funcionamiento, esto resulta lento y costoso. Para cargar la información rápidamente en la página de resultados de búsqueda, la herramienta utiliza modelos Gemini Flash más rápidos siempre que sea posible (lo cual parece ser la mayoría de las veces).
La respuesta de Google a este informe es reveladora. En el ámbito de la veracidad de la IA, un 9 sobre 10 no es tan malo. Google ha publicado recientemente pruebas de referencia para los nuevos modelos, con mediciones de veracidad que oscilan entre el 60 y el 80%; estas pruebas se realizan sin herramientas como la búsqueda web. Si bien dotar a la IA de más datos, como la gran cantidad de conocimiento humano disponible en internet, la hace más precisa que el modelo sin información previa, la verdad se encuentra en algún lugar de los enlaces azules, y AI Overviews anima a los usuarios a aceptar sus resúmenes, a veces imprecisos, en lugar de verificar manualmente esas fuentes.




