Introducción
Mientras medio mundo tecnológico persigue GPUs de Nvidia como si fueran oro, Google está jugando otra partida: diseñar su propio cerebro para la IA y partirlo en dos. TPU 8t para entrenar y TPU 8i para servir modelos son algo más que una actualización de rendimiento; son una apuesta por una nueva fase, la llamada era agentic, donde los modelos dejan de ser chatbots puntuales y se convierten en asistentes persistentes que orquestan tareas y herramientas.
En este artículo resumimos qué ha anunciado Google, por qué esta separación entre entrenamiento e inferencia es clave, cómo encaja en la carrera global por los aceleradores y qué implicaciones tiene para Europa y el mundo hispanohablante.
La noticia en breve
Según Ars Technica, Google ha presentado la octava generación de sus Tensor Processing Units en dos variantes: TPU 8t, pensada para el entrenamiento de modelos de frontera, y TPU 8i, optimizada para la inferencia.
TPU 8t apunta a entrenar modelos gigantes en menos tiempo. Cada pod puede agrupar hasta 9.600 chips con unos 2 PB de memoria HBM compartida, alcanzando alrededor de 121 exaFLOPS FP4. Google afirma que el sistema escala casi linealmente hasta un clúster lógico de un millón de chips y que la utilización de hardware es muy superior a la de la generación Ironwood.
TPU 8i se centra en ejecutar modelos, especialmente configuraciones con múltiples agentes. Los pods de inferencia pasan de 256 a 1.152 chips y ofrecen unos 11,6 exaFLOPS. Cada chip incluye tres veces más SRAM en el propio chip (384 MB), lo que permite caches de clave‑valor más grandes y un manejo más eficiente de contextos largos.
Ambas familias se apoyan en las nuevas CPUs Axion basadas en ARM, con un procesador por cada dos TPUs. Google también presume de mejoras a nivel de centro de datos y de duplicar la relación rendimiento‑por‑vatio frente a Ironwood, manteniendo compatibilidad con marcos como JAX, PyTorch, SGLang y vLLM.
Por qué importa
Lo relevante aquí no es solo que los números sean espectaculares, sino el mensaje estratégico: el chip genérico que sirve para todo en IA empieza a ser un freno.
Separando claramente TPU 8t (entrenamiento) y TPU 8i (inferencia), Google optimiza para dos lógicas económicas distintas:
- El entrenamiento necesita escala extrema y máxima ocupación; cada punto porcentual de mejor uso de recursos ahorra enormes cantidades de dinero y tiempo.
- La inferencia necesita latencias estables y un coste por consulta muy bajo; cualquier ineficiencia se traduce directamente en menos margen en productos SaaS y APIs.
En el corto plazo, ganan:
- Los clientes de Google Cloud que ya trabajan con TPUs y pueden elegir con más precisión dónde entrenar y dónde desplegar.
- La propia estrategia de Gemini: entrenar modelos más grandes y, sobre todo, servir miles de millones de peticiones al día sin que la factura eléctrica se dispare.
Quien queda en posición incómoda es Nvidia. Cada generación de chips propios en los grandes hyperscalers que se acerque en prestaciones recorta su poder de fijar precios. El pequeño tropiezo en bolsa tras el anuncio, mencionado por Ars Technica, es un síntoma de que el mercado lo sabe.
También hay un ángulo energético y político. La presión sobre el consumo de electricidad y agua de los centros de datos es ya un tema sensible en la UE y en muchos países latinoamericanos. Duplicar el rendimiento por vatio y ajustar mejor la refrigeración líquida no hace que la IA sea sostenible por arte de magia, pero sí da munición a los operadores para defender nuevos proyectos ante gobiernos y reguladores.
Por último, está el tema del bloqueo de proveedor. Un stack vertical tan estrecho –CPU ARM propia, TPU, herramientas de Google, centros de datos diseñados a medida– es muy eficiente… y muy difícil de abandonar. Las empresas tendrán que decidir cuánto valoran esa eficiencia frente a la capacidad de moverse entre nubes y mantener control sobre sus datos.
El contexto más amplio
Lo que hace Google no es un capricho aislado, sino parte de una tendencia clara: los grandes de la nube ya no pueden limitarse a comprar hardware a Nvidia; tienen que diseñar el suyo si quieren sobrevivir al boom (y posible burbuja) de la IA.
Amazon lleva años con su dúo Trainium (entrenamiento) e Inferentia (inferencia). Microsoft avanza con sus aceleradores Maia y servidores ARM. Meta desarrolla MTIA para inferencia. Google, pionero con las primeras TPUs, da ahora un paso más estructurando su gama en 8t y 8i.
El enfoque agentic es importante. Los LLM ya no son solo chatbots que responden a preguntas: se convierten en agentes que llaman APIs, interactúan con bases de datos, navegan por la web y coordinan procesos. Eso genera patrones de carga muy distintos:
- acceso a memoria más irregular,
- contextos mucho más largos,
- muchas sesiones simultáneas de baja intensidad en lugar de pocos trabajos masivos.
La ampliación del SRAM en TPU 8i y el aumento del tamaño de los pods encajan exactamente con este tipo de uso. Van de la mano con la carrera por ampliar la ventana de contexto de los modelos: de poco sirve poder trabajar con cientos de miles de tokens si el hardware de inferencia no puede cachear y mover esos datos con eficiencia.
Históricamente es el mismo patrón de siempre: primero todo corre en hardware genérico, luego aparecen appliances especializadas. Pasó con bases de datos, redes y vídeo; está pasando con la IA, solo que mucho más rápido.
La novedad es hasta dónde llega la integración vertical. Google no solo diseña chips; co‑diseña interconexión, disposición de racks, refrigeración y orquestación. Sus pods se parecen más a un supercomputador EuroHPC que a un centro de datos corporativo típico. Para los clientes, esto significa que, para aprovechar la punta de lanza en IA, tendrán que aceptar también el modelo operativo de Google.
El ángulo europeo e hispano
Para Europa, y también para España y América Latina, esta noticia es un recordatorio incómodo: la infraestructura crítica de la IA sigue en manos de un puñado de empresas estadounidenses.
Las organizaciones europeas podrán usar TPU 8t/8i a través de regiones de Google Cloud en la UE, con protección bajo el RGPD, el DSA o el DMA. Pero el control real sobre la cadena –diseño, fabricación, despliegue, precios– está en Estados Unidos. Algo similar ocurrirá con clientes latinoamericanos, que accederán a estas capacidades desde regiones de Google Cloud en EE. UU. o Brasil.
Al mismo tiempo, la obsesión por la eficiencia encaja con prioridades europeas:
- El Reglamento de IA de la UE introduce obligaciones específicas para modelos fundacionales y sistemas de alto riesgo, donde la cantidad de cómputo utilizado para entrenar es un factor clave. Mejorar la eficiencia del entrenamiento puede alterar en la práctica qué proyectos cruzan ciertos umbrales regulatorios.
- La estrategia climática europea y las metas de descarbonización en países como España limitan el crecimiento de centros de datos intensivos en energía y agua. Las promesas de 2x rendimiento‑por‑vatio y refrigeración más inteligente formarán parte de las discusiones con ayuntamientos y ministerios.
En el mundo hispano hay oportunidades adicionales. Proveedores de nube regionales en España, México, Chile o Colombia no podrán competir en potencia bruta con un pod de TPU 8t, pero sí en proximidad al cliente, integración con normativas locales y, potencialmente, en ofrecer stacks más abiertos. Cuanto más cerrado sea el ecosistema TPU, más espacio habrá para alternativas basadas en GPUs estándar, hardware europeo emergente o incluso RISC‑V en el largo plazo.
Mirando hacia adelante
¿Qué podemos esperar a corto y medio plazo?
Primero, más especialización. La división 8t/8i no será la última. Veremos pods y SKUs pensadas para tareas concretas: asistentes de código, búsqueda aumentada por recuperación, modelos multimodales, etc. Cada optimización de unos pocos puntos porcentuales en coste o latencia se traducirá en ventaja competitiva.
Segundo, una guerra de precios mucho más visible. Los titulares hablarán de exaFLOPS, pero las decisiones reales se tomarán en función del precio por millón de tokens, del coste de afinar un modelo de 70.000 millones de parámetros o de la factura energética mensual. Si Google logra que inferencia en TPU 8i sea sensiblemente más barata que en GPUs Nvidia para ciertos workloads, veremos una migración gradual de cargas hacia su plataforma.
Tercero, más atención regulatoria al nivel físico. El Reglamento de IA ya abre la puerta a umbrales basados en cómputo; los reguladores nacionales, preocupados por la estabilidad de la red y el consumo de agua, pedirán más transparencia sobre la infraestructura subyacente. El mensaje de Google sobre centros de datos co‑diseñados y eficientes es también una estrategia de relaciones públicas ante esa ola regulatoria.
Para empresas en España y Latinoamérica, la gran incógnita será cómo equilibrar acceso a la mejor infraestructura possible con exigencias de soberanía de datos, cumplimiento normativo y, en algunos casos, dependencia cambiaria respecto al dólar.
Conclusión
TPU 8t y 8i no son solo otro salto de rendimiento; son la forma en que Google intenta reescribir la economía de la IA a gran escala a su favor. Al separar entrenamiento e inferencia, apostar por ARM en el servidor y exprimir cada vatio, el gigante se prepara para un futuro en el que los agentes de IA sean infraestructura básica.
Para empresas, gobiernos y startups de habla hispana, la pregunta clave es: ¿cuánta dependencia de un único proveedor están dispuestos a aceptar a cambio de una IA más rápida y barata? La carrera no va solo de FLOPS, sino de kilovatios… y de quién controla la capa física de la inteligencia artificial.



