TPU 8t in 8i: zakaj Googlova razdelitev strojne opreme za učenje in sklepanje ni le podvig moči

Uvod

Medtem ko skoraj vsak večji AI projekt stoji v vrsti za Nvidiine pospeševalnike, je Google izbral drugo pot: možgane umetne inteligence je razdelil na dva ločena kosa silicija. TPU 8t in TPU 8i nista zgolj hitrejša čipa, temveč stava na tako imenovano agentsko dobo – na sisteme, ki dolgo časa tečejo v ozadju, uporabljajo orodja in se vpenjajo v poslovne procese.

V nadaljevanju povzemam, kaj je Google dejansko najavil, zakaj je delitev strojne opreme na učenje in sklepanje pomembna, kako to vpliva na širšo tekmo za AI čipe in kaj pomeni za evropske ter slovenske uporabnike.

Novica na kratko

Kot poroča Ars Technica, je Google predstavil osmo generacijo Tensor Processing Unit (TPU) v dveh različicah: TPU 8t za učenje velikih modelov in TPU 8i za sklepanje.

TPU 8t cilja na učenje modelov na ravni tako imenovanih frontier sistemov. En sam pod lahko vsebuje 9.600 čipov z okoli 2 PB deljenega pomnilnika HBM, kar naj bi prineslo do 121 FP4 eksaFLOPS računske moči. Google trdi, da se gruče lahko skoraj linearno razširijo do logičnega sklopa z do milijon čipi in da je izkoriščenost strojne opreme bistveno višja kot pri prejšnji generaciji Ironwood.

TPU 8i je optimiziran za izvajanje modelov, zlasti scenarijev z več agenti. Podi za sklepanje zdaj vključujejo do 1.152 čipov (prej 256 pri Ironwood) in ponujajo približno 11,6 eksaFLOPS. Vsak čip ima trikrat več vgrajenega SRAM (384 MB), kar omogoča večje predpomnilnike ključ–vrednost in hitrejše delo z daljšimi konteksti.

Obe družini temeljita na novih Googlovih strežniških procesorjih Axion ARM, pri čemer en CPU upravlja dva TPU-ja. Google poudarja tudi izboljšave na ravni podatkovnih centrov in trdi, da dosegajo približno dvakrat več zmogljivosti na vat kot Ironwood, ob podpori priljubljenih ogrodij, kot so JAX, PyTorch, SGLang in vLLM.

Zakaj je to pomembno

Ključno sporočilo te najave ni en sam impresiven podatek, temveč priznanje, da univerzalni AI čip za vse naloge ne zadošča več.

Z jasno ločitvijo med TPU 8t (učenje) in TPU 8i (sklepanje) Google optimizira za dve različni ekonomiki:

Učenje potrebuje ekstremno skalo in izkoriščenost; vsak odstotek boljše razporeditve opravil pomeni milijonske prihranke.
Sklepanje potrebuje predvidljivo zakasnitev in nizek strošek na zahtevek; neizkoriščeni cikli neposredno zmanjšujejo marže pri SaaS produktih in API-jih.

Kratkoročno so zmagovalci:

Obstoječe stranke Google Clouda, ki že uporabljajo TPU-je in dobijo bolj specializirano platformo za fino učenje ter produkcijsko izvajanje modelov.
Googlova lastna družina modelov Gemini; učinkovitejše učenje in cenejše sklepanje sta nujna, če AI vgrajujete v iskanje, Workspace, Android in pri tem vsaj del storitev ponujate brezplačno.

Relativni poraženec je Nvidija. Vsaka nova generacija lastnih čipov, ki je vsaj deloma konkurenčna, zmanjšuje odvisnost hiperskalerjev od njenega cenovnega diktata. Kratek padec tečaja Nvidiine delnice po objavi, na katerega opozarja Ars Technica, je simboličen: trg razume, da je lastna strojna oprema edini način, kako veliki ponudniki oblaka branijo svoje marže.

Pomemben je tudi okoljskopolitični vidik. Poraba elektrike in vode vse bolj omejujeta rast AI infrastrukture. Dvakrat boljše razmerje zmogljivost/vat in bolj inteligentno upravljanje hlajenja še ne pomenita zelenega AI, kupita pa nekaj časa, preden bodo regulatorji ali elektrodistributerji začeli pogosteje pritiskati na zavoro.

Na koncu je tu še vezanost na enega ponudnika. Vertikalno integriran sklad – Axion CPU, TPU, Googlove knjižnice in njegovi podatkovni centri – je izjemno učinkovit in hkrati izjemno lepljiv. Za podjetja postaja to glavni arhitekturni kompromis: učinkovitost proti prenosljivosti.

Širši kontekst

Delitev TPU 8t/8i je del širšega premika v industriji: največji ponudniki oblaka niso več samo najboljše stranke Nvidije, temveč tudi njeni najresnejši tekmeci.

Amazon ima že nekaj časa dvojno strategijo s čipi Trainium (učenje) in Inferentia (sklepanje). Microsoft uvaja lastne pospeševalnike Maia in ARM strežnike. Meta razvija čipe MTIA za sklepanje. Googlova poteza tako ni osamljen izstrelek, temveč potrditev, da se obdobje univerzalnega GPU-ja za vse naloge končuje.

Okvir agentske dobe je prav tako zgovoren. Veliki jezikovni modeli se iz enostavnih interakcij tipa vnos–odgovor spreminjajo v dolgotrajne agente, ki kličejo orodja, brskajo, izvajajo kodo in orkestrirajo delovne tokove. To ustvarja drugačne zahteve za strojno opremo:

veliko bolj neenakomerne vzorce dostopa do pomnilnika,
daljše kontekste in večje predpomnilnike ključ–vrednost,
veliko število vzporednih, a relativno majhnih zahtevkov.

Razširjeni vgrajeni pomnilnik TPU 8i in večji podi so očitno uglašeni na takšne obremenitve. To dopolnjuje sedanjo manijo po daljših kontekstih; milijonsko število žetonov vam ne pomaga, če se strojna oprema za izvajanje zaduši na pasovni širini ali ne more učinkovito hraniti stanja pozornosti.

Zgodovinsko smo nekaj podobnega že videli. V zgodnjih letih spleta so splošnonamenske x86 strežnike postopno dopolnjevale specializirane naprave za baze podatkov, predpomnjenje vsebin in video kodiranje. Pri AI se isti vzorec dogaja v nekaj letih, ne v desetletju.

Novo je, kako globoko Google posega v sklad: ne oblikuje le pospeševalnikov, temveč sooblikuje tudi mrežno infrastrukturo, hlajenje in razporeditev v podatkovnih centrih. Po pristopu je to bližje superračunalniškim laboratorijem kot klasičnemu oblaku. Meja med ponudnikom oblaka in dobaviteljem superračunalnikov se briše.

Evropski in slovenski vidik

Za Evropo je napoved TPU 8t/8i opomnik na odvisnost in hkrati priložnost.

Odvisnost, ker je še ena ključna plast digitalne infrastrukture v rokah ameriškega podjetja. Evropski laboratoriji, startupi in podjetja bodo do takšne strojne opreme realno dostopali prek regij Google Clouda v EU, a nadzor nad razvojem, cenami in dobavljivostjo bo ostal v Kaliforniji.

Priložnost, ker se energetska učinkovitost neposredno prekriva z evropskimi prioritetami:

Uredba EU o umetni inteligenci (AI Act) uvaja obveznosti, ki rastejo z zmogljivostmi modelov in posredno tudi s porabljenim računskim virom. Učinkovitejše gruče za učenje lahko nekatere projekte potisnejo pod določene pragove obveznosti ali pa omogočijo zmogljivejše modele brez linearne rasti prijavljene porabe.
Zeleni dogovor in nacionalni podnebni cilji že omejujejo gradnjo energetsko požrešnih podatkovnih centrov, tudi v Sloveniji. Trditve o 2x boljši učinkovitosti in pametnejšem tekočinskem hlajenju bodo del dialoga z regulatorji in lokalnimi skupnostmi.

Evropski ponudniki oblaka, kot so OVHcloud, Deutsche Telekom in regionalni igralci, kratkoročno težko konkurirajo TPU-jem. Lahko pa gradijo na suverenosti, lokaciji podatkov, pogodbenem nadzoru in povezavi z raziskovalnimi omrežji, kot je GÉANT oziroma pri nas Arnes.

Za slovenska podjetja in raziskovalne skupine to v praksi pomeni dilemo: uporabljati najnaprednejšo strojno opremo prek globalnih hiperskalerjev ali se bolj zanašati na evropske ponudnike z morda skromnejšimi zmogljivostmi, a jasnejšimi okviri glede varovanja podatkov in skladnosti z zakonodajo.

Pogled naprej

V naslednjih dveh letih lahko pričakujemo tri trende.

Prvič, še večjo specializacijo. TPU 8t in 8i sta groba delitev. Logičen naslednji korak so podrobneje prilagojeni čipi in podi za določene naloge: npr. za iskanje z razširjenim priklicem, za razvijalce (code assistant) ali za lokalne agente bližje uporabniku.

Drugič, boj za ceno in dostop bo ključnejši kot boj za gole FLOPS. Razvijalce in podjetja zanima: koliko stane milijarda žetonov sklepanja? Koliko časa in denarja vzame fino učenje 70‑milijardnega modela? Če bo Google sposoben ponuditi nižji skupni strošek lastništva kot Nvidiine rešitve, bo del delovnih bremen neizogibno zdrsnil na TPU-je.

Tretjič, regulacija bo začela bolj neposredno gledati v strojno plast. AI Act sicer primarno naslavlja modele in uporabo, a pragovi na osnovi računske moči odpirajo vrata nadzoru nad velikimi grozdi za učenje. Nacionalni organi, zaskrbljeni zaradi stabilnosti omrežja ali porabe vode, bodo vedno pogosteje zahtevali podatke ne le o modelih, temveč o infrastrukturi v ozadju.

Za Slovenijo se ob tem postavlja vprašanje, ali bomo v naslednjih letih zgolj uvozniki takšne infrastrukture preko tujih oblakov ali pa bomo skupaj z EU pobudami (npr. EuroHPC, nacionalni superračunalniki) zgradili vsaj delno neodvisnost za kritične raziskovalne in javne sisteme.

Bistvo

TPU 8t in 8i nista predvsem napad na Nvidiine grafe, temveč poskus Googla, da na novo zapiše ekonomiko velikopotezne umetne inteligence. Delitev učenja in sklepanja, zategovanje ARM-sklada in lov za vsako prihranjeno vatno uro je točno to, kar naredite, če verjamete, da bodo AI agenti postali osnovna infrastruktura, ne le impresivne demonstracije.

Za slovenska podjetja, javni sektor in raziskovalce je ključno vprašanje: koliko vezanosti na posameznega globalnega ponudnika ste pripravljeni sprejeti v zameno za cenejšo in hitrejšo AI? Tekma za čipe je v resnici tekma za moč – tako električno kot politično.

TPU 8t in 8i: zakaj Googlova razdelitev strojne opreme za učenje in sklepanje ni le podvig moči

Uvod

Novica na kratko

Zakaj je to pomembno

Širši kontekst

Evropski in slovenski vidik

Pogled naprej

Bistvo

Komentarji

Pustite komentar

Povezani članki

Zakaj je ChatGPT Images 2.0 eksplodiral v Indiji, v Evropi pa komaj opazno premaknil iglo

Ko se umetna inteligenca zaleti v njive: kaj nam pove ameriški upor podatkovnim centrom

GitHub Copilot dobi števec: konec pavšalnega AI kodiranja

Ostani na tekočem