Einleitung
Google hat nicht einfach nur schnellere KI-Chips vorgestellt. Mit TPU 8t und TPU 8i trennt der Konzern das, was neuronale Netze lernen lässt, von dem, was sie im Alltag arbeiten lässt. In einem Markt, der von Nvidia-GPUs dominiert wird, ist das eine strategische Aussage: Das sogenannte Agenten-Zeitalter braucht andere Hardware als die erste Welle der Chatbots.
Im Folgenden ordne ich die Ankündigung ein, analysiere die Auswirkungen auf den Wettbewerb, beleuchte die Rolle europäischer Akteure und diskutiere, was Unternehmen in Deutschland, Österreich und der Schweiz daraus ableiten sollten.
Die Nachricht in Kürze
Laut Ars Technica hat Google seine achte TPU-Generation in zwei Varianten vorgestellt: TPU 8t für das Training großer Modelle und TPU 8i für deren Inferenz.
TPU 8t zielt auf Training im Frontier-Bereich. Ein Pod soll bis zu 9.600 Chips mit rund 2 Petabyte gemeinsamem High-Bandwidth-Memory aufnehmen und bis zu 121 FP4 ExaFLOPS erreichen. Google spricht von nahezu linearer Skalierung bis zu einem logischen Verbund mit einer Million Chips und deutlich höherer Auslastung als bei der Vorgängergeneration Ironwood.
TPU 8i ist auf das Ausführen von Modellen optimiert, insbesondere auf Szenarien mit vielen parallelen Agenten. Inferenz-Pods wachsen von 256 auf 1.152 Chips und liefern etwa 11,6 ExaFLOPS. Jeder Chip verfügt über dreimal so viel On‑Chip‑SRAM (384 MB), was größere Key‑Value‑Caches und schnellere Verarbeitung langer Kontexte ermöglichen soll.
Beide Chipfamilien sind eng mit Googles neuen Axion‑ARM‑Server‑CPUs gekoppelt, wobei ein CPU zwei TPUs bedient. Google betont außerdem Rechenzentrumsoptimierungen und gibt an, gegenüber Ironwood die Leistung pro Watt etwa verdoppelt zu haben, bei Unterstützung gängiger Frameworks wie JAX, PyTorch, SGLang und vLLM.
Warum das wichtig ist
Die zentrale Botschaft lautet: Ein universeller KI-Beschleuniger für alle Lebenslagen ist ausgereizt. Training und Inferenz folgen unterschiedlichen physikalischen und ökonomischen Gesetzen – und Google akzeptiert das nun auch in Silizium.
- Training benötigt maximale Skalierung und Auslastung. Jede Minute Leerlauf und jede Unterbrechung durch Hardwarefehler kostet bei Modellen im zweistelligen Milliardenparameterbereich erhebliche Summen.
- Inferenz benötigt stabile Latenzen und einen möglichst niedrigen Preis pro Anfrage. Hier schlagen überdimensionierte oder schlecht ausgelastete Hardware direkt auf die Marge der KI-Produkte durch.
Kurzfristig profitieren:
- Kunden auf Google Cloud, die ohnehin auf TPUs setzen und nun gezielter zwischen Trainings‑ und Inferenzressourcen wählen können.
- Googles eigene Gemini‑Strategie: Effizienteres Training und günstigeres Serving sind Voraussetzung, wenn man KI-Funktionen quer durch Suche, Workspace und Android skaliert.
Langfristig ist der eigentliche Adressat jedoch Nvidia. Jede halbwegs konkurrenzfähige Eigenentwicklung der Hyperscaler schwächt Nvidias Preissetzungsmacht. Dass der Aktienkurs nach der Ankündigung kurz nachgab, wie Ars Technica berichtet, zeigt: Der Markt hat verstanden, dass sich Kunden und Konkurrenten inzwischen in Personalunion gegenüberstehen.
Hinzu kommt die Energiefrage. Strom- und Wasserverbrauch werden zum harten Limit für weitere KI-Ausbaustufen – insbesondere in regulierten Märkten wie der EU. Eine Verdopplung der Leistung pro Watt und feinere Steuerung der Flüssigkühlung machen Rechenzentren nicht klimaneutral, liefern aber Argumente gegenüber Netzbetreibern und Behörden.
Und schließlich: Lock‑in. Ein hochintegrierter Stack aus ARM‑CPUs, TPUs, proprietären Tools und von Google designten Rechenzentren ist aus technischer Sicht attraktiv – und aus Governance‑Perspektive heikel. Wer sich darauf einlässt, bewegt sich weiter weg von einer Multi‑Cloud‑Strategie hin zu faktischer Abhängigkeit.
Der größere Kontext
Googles Schritt fügt sich nahtlos in einen klaren Branchentrend ein: Die großen Cloud‑Anbieter werden zu Chip‑Designern, weil sie es sich nicht mehr leisten können, ausschließlich Nvidia‑Margen zu finanzieren.
Amazon fährt mit Trainium (Training) und Inferentia (Inferenz) schon länger zweigleisig. Microsoft bringt eigene Beschleuniger (Maia) und ARM‑Server in Stellung. Meta baut MTIA‑Chips für Inferenz. Google war mit TPUs früh dran, die explizite Aufspaltung in 8t und 8i markiert nun den Einstieg in eine noch stärkere Spezialisierung.
Spannend ist die Verknüpfung mit dem Agenten‑Narrativ. LLMs werden zu dauerhaften Software‑Akteuren, die Tools ansteuern, im Web recherchieren, Code ausführen und Workflows koordinieren. Das erzeugt andere Lastprofile als klassische Batch‑Jobs:
- unregelmäßige Speicherzugriffe,
- große Kontextfenster und komplexe Caches,
- viele kleine, parallele Anfragen statt weniger großer Jobs.
Die vergrößerten Inferenz‑Pods und der dreifach ausgebaute On‑Chip‑Speicher des TPU 8i sind genau für solche Muster interessant. Das passt zu der Welle an Modellen mit extrem langen Kontextfenstern: Ohne passende Hardware verpufft deren theoretischer Vorteil.
Historisch wirkt das vertraut. Die frühen Web‑Rechenzentren liefen auf generischen x86‑Servern; später folgten spezialisierte Appliances für Datenbanken, Caches oder Videoencoding. Heute erleben wir die gleiche Entwicklung im Zeitraffer im KI‑Bereich.
Neu ist die Tiefe der vertikalen Integration. Google designt nicht nur Chips, sondern co‑designt interconnect, Kühlung und Rechenzentrums‑Topologie. Das ähnelt eher einem EuroHPC‑Superrechner als einem klassischen Enterprise‑Rechenzentrum. Für Kunden bedeutet das: Wer diese Leistung nutzen will, muss sich auf Googles Betriebsmodell einlassen.
Der europäische Blick: Regulierung, Souveränität, Chancen
Für Europa – und speziell die DACH‑Region – ist die Ankündigung ambivalent.
Einerseits unterstreicht sie die Abhängigkeit von US‑Infrastruktur. TPU 8t/8i werden nur in Googles eigenen Rechenzentren verfügbar sein. Selbst wenn diese in Frankfurt, Zürich oder anderen EU‑Regionen stehen, bleiben Design, Betrieb und Roadmap in den USA. Für politische Debatten um digitale Souveränität ist das ein Problem.
Andererseits adressiert Google genau Themen, die in der EU regulatorisch aufgeladen sind:
- Die EU‑KI‑Verordnung (AI Act) führt Pflichten für High‑Risk‑Systeme und sogenannte Foundation‑Modelle ein, bei denen die eingesetzte Rechenleistung ein zentrales Kriterium ist. Effizientere Trainingsinfrastruktur kann helfen, unter bestimmten Schwellen zu bleiben – oder mehr Modellkapazität bei gleicher nomineller Compute‑Angabe unterzubringen.
- Die Diskussion um Rechenzentrums‑Standorte und Energieverbrauch ist in Deutschland, den Niederlanden oder Irland bereits politisch brisant. Eine sechsfache Steigerung der Rechenleistung pro Energieeinheit im Rechenzentrum, wie Google sinngemäß behauptet, wird in Genehmigungsverfahren und bei Netzanschlüssen sicher thematisiert werden.
Für europäische Cloud‑Anbieter wie OVHcloud, Scaleway, Telekom‑Töchtern oder Schweizer Spezialisten ergibt sich eine Nische: Wer nicht mit proprietärer Hyperscaler‑Hardware konkurrieren kann, positioniert sich über Datenhoheit, Vertragsgestaltung, Open‑Source‑Stacks und ggf. europäische Hardware‑Initiativen wie SiPearl oder RISC‑V‑Projekte.
Für KI‑Startups in Berlin, München oder Zürich erhöht sich der Druck, eine klare Strategie zu wählen: maximale Performance auf US‑Hyperscalern mit TPU‑ oder GPU‑Stacks – oder bewusste Bindung an europäische Infrastrukturen mit vielleicht geringerer Spitzenleistung, aber besser kontrollierbaren Rahmenbedingungen in Sachen Datenschutz (GDPR), DSA/DMA und nationaler Aufsicht.
Blick nach vorn
In den kommenden 12 bis 24 Monaten zeichnen sich mehrere Entwicklungen ab.
Erstens: weitere Fragmentierung der Hardware. Die grobe Trennung in Training und Inferenz wird nicht das Ende sein. Wir werden Pods sehen, die speziell für Retrieval‑Augmented‑Generation, Code‑Assistants oder multimodale Workloads optimiert sind. Für Google ist jeder zusätzliche Prozentpunkt Effizienz ein Wettbewerbsvorteil gegenüber GPU‑basierten Angeboten.
Zweitens: Preismodelle werden zum entscheidenden Hebel. Schlagzeilen machen ExaFLOPS, gekauft werden aber Token‑Preise, Latenzgarantien und Total Cost of Ownership. Wenn Google Inferenz auf TPU 8i signifikant günstiger als GPU‑basierte Konkurrenz anbieten kann, wird das Workloads aus Multi‑Cloud‑Strategien herausziehen und in den eigenen Garten holen.
Drittens: Regulierer werden stärker auf die Infrastrukturebene schauen. Der AI Act enthält bereits Compute‑Schwellen; nationale Behörden könnten bei sehr großen Trainingsclustern zusätzliche Auflagen formulieren – von Meldepflichten bis hin zu Energie‑ oder Wasser‑Budgets. Googles Erzählung von co‑designten, effizienten Rechenzentren ist auch als Vorbereitung auf diese Gespräche zu lesen.
Offen bleibt, ob Google seine TPU‑Strategie jemals für wirklich souveräne Cloud‑Modelle öffnet – etwa über Joint‑Ventures mit europäischen Betreibern, in denen Betriebs‑ und Datenhoheit geteilt werden. Ebenso unklar ist, ob Unternehmen realistisch eine Multi‑Accelerator‑Welt managen können, ohne ihre MLOps‑Stacks zu verkomplizieren.
Fazit
TPU 8t und 8i sind weniger ein Frontalangriff auf Nvidia‑Benchmarks als ein Versuch, die Kostenstruktur großskaliger KI im Sinne von Google neu zu schreiben. Indem der Konzern Training und Inferenz trennt, den ARM‑Stack durchzieht und jeden Effizienzgewinn mitnimmt, bereitet er sich auf eine Welt vor, in der KI‑Agenten Alltagsinfrastruktur sind.
Für Unternehmen in der DACH‑Region stellt sich damit die strategische Frage: Wie viel Effizienz und Performance sind Ihnen wie viel Abhängigkeit von einem US‑Hyperscaler wert? Die eigentliche Konkurrenz findet nicht nur in FLOPS statt, sondern in Kilowattstunden – und in Kontrolle über die eigene digitale Zukunft.



