Cuando una IA que domina el Go tropieza con el Nim: la grieta en el mito de la "súper IA"

Titular e introducción

La misma receta que llevó a la IA a humillar a los humanos en ajedrez y Go se desmorona ante un sencillo juego de palillos que se enseña a niños. No es un chiste geek: es una señal clara de hasta dónde llegan –y hasta dónde no– los métodos actuales.

Una nueva investigación, comentada por Ars Technica, muestra que los sistemas tipo AlphaZero, entrenados sólo jugando contra sí mismos, se atascan en juegos imparciales simples como Nim. A partir de cierto tamaño del tablero, prácticamente dejan de aprender.

En este artículo analizamos qué falla realmente, por qué esto afecta mucho más que al mundillo de los juegos, y qué implica para Europa y para el ecosistema hispanohablante de IA, desde Madrid hasta Ciudad de México o Buenos Aires.

La noticia en breve

Según relata Ars Technica, los investigadores Bei Zhou y Søren Riis publicaron en la revista Machine Learning un estudio sobre cómo se comporta un sistema tipo AlphaZero en Nim.

En Nim, dos jugadores van retirando palillos de filas dispuestas en forma de pirámide; cada turno se puede quitar uno o varios palillos de una sola fila. Quien se queda sin movimiento legal pierde. Desde el punto de vista matemático, existe un procedimiento bien definido (una función de paridad) que permite evaluar cualquier posición y saber si el jugador al turno puede forzar la victoria.

Zhou y Riis construyeron un sistema que, igual que AlphaZero en ajedrez, sólo conoce las reglas, juega millones de partidas contra sí mismo y aprende a estimar qué movimientos conducen a ganar. En tableros pequeños (cinco filas), la mejora fue rápida. Cuando añadieron sexta y séptima fila, el aprendizaje se frenó en seco: tras un entrenamiento intensivo, el módulo “inteligente” de selección de jugadas no lo hacía mejor que una versión que movía al azar.

Los autores concluyen que el enfoque no consigue descubrir la regla de paridad subyacente, lo que revela un modo de fallo grave y muy específico.

Por qué importa

A primera vista, que una IA “invencible” pierda en Nim parece una curiosidad de laboratorio. Pero el mensaje va directo al corazón del relato dominante en la industria: la idea de que, con suficientes datos, cómputo y autojuego, un gran modelo neuronal acabará encontrando cualquier estructura relevante.

El trabajo de Zhou y Riis dice que no es tan sencillo. Nim es simple, está completamente resuelto y no tiene ruido. Si un sistema tipo AlphaZero fracasa ahí, no es por falta de datos, sino porque la estrategia óptima depende de una relación global sobre el tablero (algo parecido a una función XOR de las filas) y no de patrones locales fáciles de correlacionar con la victoria.

Pierden con esto:

Los que apuestan todo a “más grande es mejor”. Si el gradiente que recibe el modelo no le revela la estructura correcta, añadir partidas y parámetros tiene un recorrido limitado.
Los proyectos que venden “IA para matemáticas, código o razonamiento formal” reutilizando las mismas técnicas de autojuego y refuerzo profundo.

Ganan en cambio:

Los enfoques híbridos y simbólicos. Quienes trabajan en IA neuro‑simbólica, síntesis de programas o métodos formales tienen ahora un ejemplo muy didáctico para explicar por qué sus herramientas son necesarias.
Los equipos de evaluación y seguridad. Nim ofrece una batería de casos de prueba en los que una IA muy fuerte puede parecer competente pero estar sistemáticamente equivocada.

La implicación inmediata: los sistemas tipo AlphaZero no son “solucionadores generales de juegos”, sino reconocedores de patrones muy potentes apoyados en búsqueda. Cuando la tarea se parece más a ejecutar un algoritmo que a ver un patrón, pueden hacer el ridículo.

El panorama más amplio

Este resultado encaja con varias tendencias recientes.

En Go, por ejemplo, se han descubierto en 2023–24 posiciones “adversarias” que permiten a jugadores muy modestos destrozar motores de élite como KataGo. En la inmensa mayoría de partidas, la IA sigue siendo muy superior al humano, pero en rincones muy concretos del espacio de estados su comprensión estratégica se derrumba.

Los grandes modelos de lenguaje enseñan el mismo patrón: sacan buenas notas en muchos exámenes de matemáticas y programación, pero fallan estrepitosamente cuando hace falta capturar invariantes abstractas o paridad, o cuando el problema exige cadenas de razonamiento largas sin ayudas externas como un intérprete de código.

Nim es la versión más pura de ese fallo. No hay ambigüedad lingüística, ni datos ruidosos, ni sesgos humanos de etiquetado. O tu procedimiento de entrenamiento descubre la regla matemática, o no. Y el experimento muestra que el refuerzo profundo con autojuego, tal y como se usa en AlphaZero, básicamente no la descubre.

Históricamente, esto reabre la vieja discusión entre IA simbólica y conexionista. En los 80 y 90, las funciones de paridad eran el ejemplo clásico de lo que cuesta a las redes neuronales estándar si no se ajusta bien la arquitectura. El éxito del deep learning no ha borrado esa realidad; sólo la había tapado bajo montañas de datos.

También llama la atención el contraste con trabajos como AlphaTensor o AlphaDev de DeepMind, que buscan directamente algoritmos eficientes explorando espacios de programas, y no solo funciones “posición → valor”. Nim sugiere que, si queremos verdadera generalización algorítmica, tendremos que diseñar sistemas que razonen en términos de programas y reglas, no esperar a que emerjan de la nada.

La perspectiva europea e hispanohablante

Para Europa, este estudio cae en medio de un debate regulatorio intenso. El Reglamento de IA de la UE obliga a los proveedores de sistemas de alto riesgo a demostrar robustez y a documentar bien sus limitaciones. Juegos tipo Nim son un candidato natural para convertirse en tests de estrés mínimos: si su “motor de razonamiento general” no puede con un rompecabezas elemental con estructura matemática clara, ¿qué cabe esperar en un sistema de crédito, de gestión de red eléctrica o de diagnóstico médico?

La cultura regulatoria europea, y en particular de España, Francia o Alemania, es sensible a las cajas negras. El ejemplo de Nim refuerza la narrativa de que hacen falta explicaciones, garantías formales y evaluaciones independientes, no sólo demos espectaculares.

Hay además una oportunidad estratégica. Europa tiene tradición fuerte en lógica, verificación y métodos formales (Inria, ETH Zürich, universidades alemanas, etc.), y América Latina está construyendo capacidades propias, por ejemplo en Brasil, México, Argentina o Chile. Los grupos que trabajan en IA neuro‑simbólica o en certificación de modelos pueden utilizar Nim como carta de presentación para atraer proyectos europeos (Horizon Europe) o colaboraciones transatlánticas.

Para empresas españolas o latinoamericanas en banca, seguros, salud o energía, el mensaje es práctico: si están intentando “copiar AlphaZero” para asignar crédito, predecir demanda o planificar logística, deben asumir que en su dominio hay subproblemas con estructura tipo Nim. Bajo el RGPD europeo o leyes de protección de datos latinoamericanas, los fallos sistemáticos no explicados no son sólo un problema técnico; pueden convertirse en un riesgo legal y reputacional serio.

Mirando hacia adelante

¿Qué podemos esperar a partir de aquí?

Más benchmarks algorítmicos. Veremos aparecer familias de juegos y puzzles con estructura matemática conocida –no sólo Nim– para mapear de forma más precisa qué tipos de razonamiento dominan distintos modelos.
Arquitecturas híbridas mejor pensadas. Grandes laboratorios (incluidos europeos y latinoamericanos) explorarán formas de combinar redes neuronales con módulos simbólicos: desde simples comprobadores de paridad hasta mini‑motores lógicos integrados.
Rebaja en el marketing de “IA general”. Cualquier claim de “un único algoritmo que domina cualquier juego” tendrá que responder a preguntas incómodas sobre casos como Nim, y por extensión sobre dominios del mundo real con estructura similar.

A corto plazo, nada de esto va a sustituir mañana mismo al enfoque AlphaZero, que sigue siendo extremadamente potente en muchos juegos y tareas de planificación. Pero en un horizonte de 2–5 años, a medida que se acumulen ejemplos de este estilo en matemáticas, verificación de software o diseño de chips, será difícil seguir ignorándolos.

Quedan abiertas varias cuestiones clave:

¿Podemos enseñar a una red a internalizar reglas tipo paridad mediante currículos de entrenamiento y representaciones adecuadas, o es imprescindible añadir componentes simbólicos explícitos?
¿Cómo detectamos que un sistema tiene un “punto ciego Nim” en un entorno real, donde no conocemos de antemano la regla óptima?

Para el ecosistema hispanohablante –startups en Barcelona, Ciudad de México, Bogotá o Montevideo– esto también es una área de oportunidad: herramientas para auditar modelos, descubrir ceguerras estructurales y ofrecer arquitecturas híbridas robustas pueden convertirse en nichos muy interesantes.

En resumen

El tropiezo de AlphaZero‑like con Nim destapa una debilidad estructural: estas IA son maestras del reconocimiento de patrones, pero pueden ser sorprendentemente torpes cuando la solución depende de reglas simbólicas precisas.

Eso debería enfriar la fe ciega en que “más datos y más autojuego” nos llevarán sin más a una inteligencia general, y reforzar la apuesta por enfoques híbridos, verificables y regulados, donde Europa tiene ventaja y el mundo hispanohablante puede posicionarse bien. La pregunta incómoda que queda para cada lector es: ¿dónde podría esconderse un Nim en su propio dominio, y cómo lo comprobaría?

Cuando una IA que domina el Go tropieza con el Nim: la grieta en el mito de la "súper IA"

Titular e introducción

La noticia en breve

Por qué importa

El panorama más amplio

La perspectiva europea e hispanohablante

Mirando hacia adelante

En resumen

Comentarios

Deja un comentario

Publicaciones relacionadas

Mistral Forge: del consumo de GPT a la propiedad real de la IA en la empresa

World ID quiere poner tu iris detrás de cada agente de IA: ¿solución elegante o distopía privatizada?

El divorcio entre el Pentágono y Anthropic: la primera gran derrota del "AI ético" militar

Mantente informado