Google presume un 90 % de aciertos en sus respuestas con IA, pero el problema está en el 10 % restante

Titular e introducción

Buscar algo en Google ya no es solo escribir una palabra y ver enlaces azules. Cada vez más, lo primero que aparece es un bloque de texto generado por la IA de Gemini: los llamados AI Overviews. Una nueva prueba sugiere que estos resúmenes aciertan alrededor del 90 % de las veces. Suena razonable… hasta que recordamos que Google es, para buena parte de España y Latinoamérica, la puerta principal a la información. Ese 10 % de errores se convierte entonces en millones de afirmaciones equivocadas por hora. Aquí analizamos qué significa de verdad ese 90 %, quién gana, quién pierde y por qué Europa y el mundo hispanohablante deberían prestar atención.

La noticia en breve

Según recoge Ars Technica, citando a The New York Times y a la startup de IA Oumi, los AI Overviews de Google responden correctamente a preguntas de tipo factual en torno al 90–91 % de los casos en un test ampliamente utilizado.

Oumi utilizó SimpleQA, un conjunto de más de 4.000 preguntas con respuestas verificables publicado por OpenAI en 2024. A través de herramientas automáticas lanzó estas preguntas a los AI Overviews y comparó las respuestas con las soluciones oficiales. Con modelos anteriores de Gemini, la precisión rondaba el 85 %; tras la llegada de Gemini 3, la cifra subió a aproximadamente el 91 %.

Ars señala que, extrapolado al volumen total de búsquedas de Google, esto podría implicar decenas de millones de respuestas incorrectas al día. Google critica la metodología, alegando que SimpleQA contiene errores y que no representa bien lo que la gente busca realmente. La compañía afirma que prefiere una variante más depurada llamada SimpleQA Verified y subraya que los Overviews cambian de modelo Gemini (desde los rápidos Flash hasta versiones Pro) según el tipo de consulta y los requisitos de rendimiento.

Por qué importa

En un informe técnico, un 90 % puede parecer un éxito. En la interfaz principal hacia la realidad, es preocupante.

La búsqueda web es, de facto, una infraestructura social. En España, México, Argentina o Colombia, “buscar en internet” es casi sinónimo de “buscar en Google”. No hablamos de un chatbot experimental, sino de una herramienta que usan estudiantes, médicos, periodistas, pymes, administraciones públicas y millones de usuarios cada día.

El detalle clave es dónde se muestran estas respuestas: arriba del todo, en un módulo destacado con tono seguro y un par de enlaces a modo de respaldo. El diseño y el peso de la marca hacen que la mayoría de la gente lea esos párrafos como la verdad, no como una conjetura estadística. En móvil, donde la pantalla es limitada y el tiempo escaso, la probabilidad de que el usuario baje a contrastar fuentes se reduce todavía más.

¿Quién sale beneficiado? Google, sin duda. Los AI Overviews mantienen al usuario dentro de la página de resultados, abren nuevas oportunidades publicitarias y envían el mensaje de que la compañía no se está quedando atrás frente a OpenAI, Microsoft o Perplexity en la carrera por convertirse en el “motor de respuestas” del futuro.

¿Quién pierde? Usuarios que confían demasiado en un texto fluido; medios de comunicación y creadores de contenido cuyas piezas son condensadas –o distorsionadas– sin recibir el clic; y un ecosistema informativo en el que empieza a ser complicado distinguir entre recuperar documentos e inventar detalles plausibles.

El trasfondo es claro: Google parece considerar que el nivel actual de fiabilidad de la IA generativa es “suficientemente bueno” para integrarlo de forma masiva en un servicio crítico. Esa decisión traslada gran parte del riesgo al resto de la sociedad.

El contexto amplio

El sector de la IA lleva tiempo enredado con el problema de las alucinaciones: modelos que “se inventan” datos con total convicción. Cada nuevo modelo llega acompañado de gráficas de benchmarks, con porcentajes de “factualidad” y razonamiento. Pero cada compañía usa su propia batería de pruebas, a menudo diseñadas a medida. La disputa entre SimpleQA y la versión “verificada” que prefiere Google es solo un síntoma de esa fragmentación.

Más allá de los números, el cambio de fondo es de producto. Estamos pasando de buscadores que mostraban documentos a sistemas que entregan directamente una interpretación. Bing lo intentó con su interfaz conversacional, Perplexity se define ya como motor de respuestas, y OpenAI aspira a ser la puerta de entrada por defecto a la web. Google, como gigante establecido, no puede permitirse ignorar esa tendencia.

Lo inquietante es que ya hemos visto el preludio. Las “respuestas destacadas” de Google (featured snippets) han cometido errores sonados en el pasado, pero su alcance era limitado. Con los AI Overviews, la lógica del snippet se amplifica y se hace omnipresente. Una tasa de error del 10 % sobre miles de millones de consultas deja de ser un fallo ocasional para convertirse en rasgo estructural.

Además, los resúmenes generados explotan un sesgo humano importante: tendemos a confiar en quien expresa seguridad. Un listado de enlaces con titulares contradictorios invita al menos a la duda. Un párrafo bien redactado que aparenta consenso nos empuja en la dirección contraria.

Si comparamos con sectores como la aviación, la medicina o el transporte ferroviario, una fiabilidad del 90 % sería impensable. Allí se habla de 99,99 % o más, y aun así se exigen auditorías, redundancias y protocolos estrictos. Es cierto que un error en un resultado de búsqueda no es lo mismo que un fallo en un avión. Pero la frontera se difumina cuando esa búsqueda orienta decisiones de salud, inversiones o votos.

La pauta en Silicon Valley, y también en muchas startups de IA de Europa y Latinoamérica, es conocida: lanzar primero, corregir después. Lo preocupante es ver a Google –que durante años se enorgulleció de cambios prudentes y basados en datos en su algoritmo de búsqueda– sumarse al mismo juego.

El ángulo europeo e hispanohablante

En Europa, el tema tiene una dimensión regulatoria adicional. La Unión Europea ha designado a Google como “guardián de acceso” (gatekeeper) bajo la Ley de Mercados Digitales (DMA) y ha impuesto obligaciones concretas en materia de riesgos y transparencia con la Ley de Servicios Digitales (DSA). A esto se suma el futuro Reglamento de IA (AI Act), que introducirá exigencias de gestión de riesgos y supervisión humana para sistemas de alto impacto.

Los AI Overviews se sitúan justo en la intersección: forman parte de un servicio gatekeeper, pueden influir masivamente en la formación de opinión y dependen de modelos de propósito general como Gemini. No es difícil imaginar a la Comisión Europea preguntando, en algún momento, si es aceptable que el canal dominante de información en el continente muestre por defecto respuestas generativas con un margen de error reconocido del 10 %.

Para el mundo hispanohablante, hay además un componente lingüístico y geopolítico. Gran parte de los benchmarks, incluido SimpleQA, están centrados en inglés. El español está relativamente bien representado, pero no tanto como el inglés; y los matices locales –derecho argentino, programas sociales mexicanos, burocracia española– son complicados incluso para nativos. Es razonable sospechar que la precisión real de los Overviews en español latinoamericano y europeo sea inferior a la cifra global.

En América Latina, donde la búsqueda móvil y las redes sociales son la principal puerta a la información para millones de personas, un error en un Overview sobre vacunas, ayudas estatales o procesos electorales puede tener consecuencias muy reales. Y a diferencia de Europa, muchos países carecen de organismos reguladores con el músculo de Bruselas para plantarse ante Google.

Los medios en español –desde El País o El Mundo hasta Clarín, Reforma o medios digitales más pequeños– ven cómo una parte del valor que crean se desvanece en un párrafo generado por IA. Después de años de debates sobre el canon AEDE en España o los acuerdos de licencia en otros países, la llegada de los Overviews reabre la discusión: ¿quién captura el valor económico de la información?

Mirando hacia adelante

¿Qué podemos esperar a corto y medio plazo?

En lo técnico, Google probablemente seguirá afinando los criterios de activación de los AI Overviews. Veremos menos resúmenes automáticos en temas sensibles (salud, dinero, política, infancia) y más avisos explícitos de que la IA puede equivocarse. Internamente, es probable que el sistema solo se atreva a responder cuando la “confianza” del modelo, combinada con señales clásicas de búsqueda, supere ciertos umbrales.

En el plano regulatorio, Europa será el laboratorio. El DSA obliga a las grandes plataformas a evaluar riesgos de desinformación y a mitigarlos. Es difícil cuadrar eso con una función que reconoce abiertamente una tasa de error del 10 % sin dar datos públicos por idioma o temática. No sería sorprendente ver, en los próximos años, exigencias de informes periódicos, auditorías independientes e incluso límites claros sobre cuándo pueden mostrarse Overviews.

En cuanto a los usuarios, la adaptación ya ha empezado. Mucha gente utiliza ChatGPT, Gemini u otros modelos para redactar textos o resumir información, pero sigue acudiendo a webs especializadas o a la prensa cuando necesita respuestas fiables. Es probable que se consolide una intuición colectiva: la IA como buena primera aproximación, pero mala última palabra.

Será interesante observar tres señales:

si navegadores o sistemas operativos empiezan a ofrecer con más claridad la opción de desactivar capas de IA en la búsqueda;
si surgen servicios verticales (salud, legal, educación) que presumen de “sin IA generativa, solo contenido verificado” como propuesta de valor;
y si en América Latina se abren debates políticos sobre la dependencia informativa de plataformas como Google, más allá de la regulación de redes sociales.

La gran incógnita será la responsabilidad legal. Cuando un Overview difama a una persona, recomienda una dosis peligrosa o induce a un error financiero grave, ¿es Google responsable como editor? ¿O se le aplica la lógica tradicional de “intermediario neutral”? De cómo se responda a esa pregunta en Bruselas, Madrid, Ciudad de México o Buenos Aires dependerá hasta dónde se atreverán los gigantes de la IA a llegar.

En resumen

Un sistema que falla aproximadamente en una de cada diez respuestas no debería ocupar el puesto de árbitro final en el buscador más influyente del planeta. Los AI Overviews de Google convierten los errores inevitables de los modelos generativos en un rasgo permanente de nuestro acceso a la información. Si Google –y los reguladores– no abordan esto como un problema de infraestructura, y no solo como una “novedad de producto”, los costes invisibles recaerán sobre usuarios, medios y sociedades enteras. La pregunta que queda es sencilla: ¿cuánta comodidad estamos dispuestos a comprar a cambio de confiar en una máquina que se equivoca millones de veces al día?

Google presume un 90 % de aciertos en sus respuestas con IA, pero el problema está en el 10 % restante

Titular e introducción

La noticia en breve

Por qué importa

El contexto amplio

El ángulo europeo e hispanohablante

Mirando hacia adelante

En resumen

Comentarios

Deja un comentario

Publicaciones relacionadas

Cuando todo falla, la culpa es de la IA: Bluesky, el “vibe coding” y la crisis de confianza en el software

Mythos de Anthropic: la IA que desentierra miles de fallos y reabre el debate sobre poder digital

Intel se sube al cohete de Terafab: así cambia el tablero de los chips de IA

Mantente informado