El test de Baldur’s Gate: la curiosa brújula estratégica de xAI y Grok

INTRODUCCIÓN

Que Elon Musk haya retrasado el lanzamiento de un modelo de IA porque no le ayudaba lo bastante bien con Baldur’s Gate suena a chiste de Twitter, no a decisión de roadmap. Sin embargo, eso es exactamente lo que describen Business Insider y, ahora, TechCrunch, que además ha comprobado que Grok se ha convertido en un acompañante de rol bastante competente. Detrás de la anécdota viral hay una cuestión incómoda: qué entienden los grandes laboratorios por “bueno” cuando hablamos de IA, y por qué los hobbies de un CEO pueden terminar influyendo en sistemas que usaremos todos.

LA NOTICIA EN BREVE

Según TechCrunch, citando una investigación previa de Business Insider, el año pasado Elon Musk decidió posponer durante varios días la salida de un nuevo modelo de xAI. El motivo: el chatbot no respondía con suficiente nivel de detalle a preguntas sobre el videojuego Baldur’s Gate. Ingenieros sénior habrían sido reasignados temporalmente para mejorar ese aspecto concreto del modelo.

Para comprobar el resultado, TechCrunch preparó un minibenchmark al que bautizó, con humor, “BaldurBench”: cinco preguntas generales sobre Baldur’s Gate planteadas a cuatro modelos de referencia: Grok (xAI), ChatGPT (OpenAI), Claude (Anthropic) y Gemini (Google). Los chats publicados muestran que Grok ofrece ahora consejos sólidos, dignos de guía, aunque cargados de jerga gamer y tablas de optimización. ChatGPT y Gemini dan respuestas de calidad similar con otros estilos, mientras que Claude destaca por intentar evitar destripes y por animar al usuario a jugar “a su manera”. Conclusión de TechCrunch: en esta tarea hiperconcreta, a la que xAI había dedicado un esfuerzo explícito, Grok está ya, grosso modo, a la altura de sus rivales.

POR QUÉ IMPORTA

Podríamos quedarnos en el meme del multimillonario que mueve a docenas de ingenieros para pasar una mazmorra. Pero sería un error minusvalorar lo que revela este caso sobre la cultura de desarrollo en xAI.

En primer lugar, evidencia lo difusa que sigue siendo la noción de calidad en muchos laboratorios. El lanzamiento de un modelo que va a responder sobre salud, finanzas o política se frena no por un fallo grave de seguridad, sino porque fracasa en el criterio “me sirve para mi partida”. Es una forma extrema de diseño centrado en el jefe: el KPI real pasa a ser que la experiencia del CEO sea impecable.

En segundo lugar, encaja con el posicionamiento de xAI. Mientras OpenAI empuja hacia la productividad y los agentes que automatizan trabajo, y Anthropic se vende como la opción prudente y “corporativa”, xAI abraza el papel de IA gamberra para usuarios de X. Afinar el modelo para guías de videojuegos no es un despiste: es reforzar una identidad de entretenimiento y nicho hardcore, mucho más cerca de Twitch que de SAP.

Los ganadores obvios son los jugadores intensivos y la comunidad fan de Musk, que ven cómo sus intereses se convierten en prioridad de un laboratorio puntero. Los perdedores potenciales: los propios equipos de ingeniería, desviados de cuestiones más estructurales, y las empresas que se planteen usar Grok en entornos críticos y que ahora tendrán que preguntarse qué pesa más en la balanza interna: un bug en un informe financiero o un mal consejo sobre un jefe final.

Por último, el episodio subraya la opacidad de la evaluación de modelos. Desde fuera no vemos los cientos de pruebas internas que sí se hacen; solo nos enteramos de Baldur’s Gate porque es lo bastante pintoresco como para filtrarse. Si este tipo de caprichos puede frenar un release, ¿qué ocurre cuando los fallos se refieren a temas mucho menos glamurosos pero infinitamente más serios?

EL CONTEXTO AMPLIO

Los videojuegos han sido históricamente un laboratorio perfecto para la IA. DeepMind con Go y StarCraft, OpenAI con sus bots de Dota 2: cada hito mostraba avances reales en aprendizaje por refuerzo, planificación y estrategias complejas.

Con Grok y Baldur’s Gate hablamos de otra cosa. Los grandes modelos de lenguaje no “aprenden” a jugar en tiempo real; más bien destilan el conocimiento acumulado en wikis, foros y guías. La habilidad no está en descubrir una táctica nueva, sino en localizar, combinar y explicar bien las ya existentes.

El BaldurBench que construye TechCrunch condensa el estado actual de la carrera LLM: todos beben de un internet parecido, saturado de contenido. La diferencia se desplaza hacia la capa de presentación: Grok habla como un forero veterano obsesionado con la optimización; Gemini organiza la respuesta como si fuera una ficha de producto de Google; Claude juega al tutor empático que te protege de spoilers. El “cómo” empieza a pesar tanto como el “cuánto sabe”.

Al mismo tiempo, la industria sufre fatiga de benchmarks clásicos. Las tablas de resultados en codificación o comprensión lectora ya no cuentan toda la historia, y las mejoras marginales son cada vez menos significativas para el usuario final. Los laboratorios rellenan ese vacío con pruebas propias: suites de red‑teaming, pilotos con clientes… y, a veces, caprichos del fundador. El problema es que estos tests internos rara vez son transparentes, pero sí influyen en hacia dónde se optimizan modelos que impactarán a millones de personas.

Frente a la estrategia visible de OpenAI (ofimática, code assistants, agentes) y al discurso de seguridad de Anthropic, la anécdota de xAI genera una duda razonable: ¿está construyendo infraestructuras serias o, sobre todo, juguetes muy caros? La respuesta no llegará en un meme, sino en cómo se comporte Grok fuera del terreno cómodo de los videojuegos.

LA PERSPECTIVA EUROPEA Y HISPANA

Hay un detalle interesante: Baldur’s Gate 3, el juego que actúa aquí como “examen” para Grok, es obra de Larian Studios, un estudio europeo (belga) que se ha convertido en referencia mundial. La creatividad europea en videojuegos se convierte, irónicamente, en campo de pruebas para los modelos estadounidenses.

Para jugadores en España y América Latina, asistentes como Grok pueden ser realmente útiles, siempre que entiendan bien el contexto local y el idioma. De momento, la mayoría de estos experimentos se hacen en inglés, lo que deja un hueco atractivo para estudios y startups hispanohablantes: desde herramientas que generen guías dinámicas en español hasta bots que moderen comunidades, pasen por encima del ruido y entiendan referencias culturales propias.

Pero a nivel regulatorio el foco es otro. La Ley de IA de la UE, el RGPD, la DSA y otras normas emergentes miran a los modelos de propósito general desde la óptica del riesgo: desinformación, sesgos, decisiones automatizadas, trazabilidad. A los reguladores europeos les da igual si Grok es el mejor explicando builds; lo que les preocupa es qué hace cuando un usuario le pregunta por medicamentos o por cómo explotar vacíos legales.

En paralelo, el ecosistema hispanohablante –desde España hasta México, Colombia o Argentina– empieza a construir sus propios modelos y servicios. Muchos de ellos venden justamente lo contrario de la imagen que proyecta xAI: cumplimiento normativo, foco en idiomas locales, despliegues soberanos. Para estos actores, un titular tipo “el CEO retrasa un modelo por un videojuego” sería más problema que carta de presentación.

A FUTURO

¿Qué cabe esperar ahora de xAI y Grok? En el corto plazo, es lógico que doblen la apuesta por su identidad “para frikis”: un asistente que no solo contesta, sino que vive en las mismas comunidades que sus usuarios, desde X hasta Discord. Si Grok se convierte en el compañero de partida por defecto –el que te ayuda con builds, lore y hasta con chistes internos del fandom–, xAI tendrá un nicho fiel, aunque limitado.

El verdadero examen llegará cuando xAI intente salir de esa burbuja. ¿Veremos la misma obsesión por el detalle cuando se trate de evitar alucinaciones en temas médicos o de detectar discurso de odio en varios idiomas? ¿Se detendrá un lanzamiento porque el modelo da consejos peligrosos en derecho laboral español o porque desinforma sobre elecciones en México, igual que se detuvo por Baldur’s Gate?

En los próximos 12–24 meses conviene vigilar tres cosas. Uno, si xAI publica evaluaciones técnicas serias y procesos de auditoría independientes, especialmente si quiere operar en la UE. Dos, cómo influye la integración en SpaceX: un modelo afinado para ayudar a ingenieros aeroespaciales es muy distinto a un “coach” de videojuegos. Y tres, hasta qué punto Grok se adapta a idiomas distintos del inglés; para el mundo hispanohablante, eso será la diferencia entre juguete curioso y herramienta cotidiana.

El riesgo para xAI es encasillarse como “la IA graciosa que no te fiarías para nada serio”. La oportunidad, demostrar que la misma energía dedicada a optimizar una build puede trasladarse a robustez y seguridad donde realmente nos jugamos algo.

CONCLUSIÓN

La historia de Baldur’s Gate es divertida y fácil de viralizar, pero apunta a un problema de fondo: el rumbo de la IA sigue en manos de muy pocas personas y de criterios que, a menudo, no salen del círculo de sus obsesiones. Que Grok esté a la altura en un test hecho a medida para el hobby del jefe dice menos sobre su calidad global que sobre las prioridades internas de xAI. Si vamos a convivir con estos sistemas en el trabajo, la salud o la política, la pregunta clave es quién debe decidir qué exámenes tienen que aprobar… y cómo logramos que ese examen no sea, metafóricamente, la partida guardada de un solo jugador.

El test de Baldur’s Gate: la curiosa brújula estratégica de xAI y Grok

Comentarios

Deja un comentario

Publicaciones relacionadas

Cuando tu jefe es un modelo de IA: lo que revela el ‘Dara AI’ de Uber

MatX contra Nvidia: el verdadero juego detrás de los 500 millones está en el poder de cómputo

La baza europea en IA no es ser más grande, sino más eficiente: lo que significa el modelo comprimido de Multiverse

Mantente informado