Googlov TPU 8t i 8i: kako podjela čipa na učenje i izvođenje mijenja igru za AI

Uvod

Dok većina AI projekata očajnički traži još Nvidijinih GPU‑ova, Google tiho gradi vlastiti put: mozak umjetne inteligencije dijeli na dva posebna komada silicija. TPU 8t za treniranje i TPU 8i za izvođenje modela nisu samo brži čipovi, nego oklada na takozvano doba agenata – sustave koji dugo rade u pozadini, koriste alate i automatiziraju svakodnevne procese.

U nastavku donosim sažetak onoga što je Google najavio, analizu zašto je razdvajanje treniranja i izvođenja važno, kako se to uklapa u globalnu utrku akceleratora te što znači za Europu i za digitalnu ekonomiju u Hrvatskoj i regiji.

Vijest ukratko

Prema pisanju Ars Technice, Google je predstavio osmu generaciju svojih Tensor Processing Unit (TPU) čipova u dvije varijante: TPU 8t za treniranje velikih modela i TPU 8i optimiziran za izvođenje (inferenciju).

TPU 8t cilja na treniranje takozvanih frontier modela. Jedan pod može sadržavati do 9.600 čipova s oko 2 PB zajedničke HBM memorije i postići oko 121 FP4 eksaFLOPS računske snage. Google navodi gotovo linearnu skalabilnost do logičkog klastera s milijun čipova i znatno veću iskorištenost hardvera u odnosu na generaciju Ironwood.

TPU 8i je prilagođen izvođenju modela, osobito scenarijima s više specijaliziranih agenata. Podovi za inferenciju rastu sa 256 na 1.152 čipa i nude oko 11,6 eksaFLOPS. Svaki čip ima tri puta više ugrađene SRAM memorije (384 MB), što omogućuje veće key‑value cacheve i brže izvođenje modela s dugim kontekstom.

Obje obitelji povezuje novi Googlov Axion ARM poslužiteljski procesor, pri čemu jedan CPU opslužuje dva TPU‑a. Google ističe i poboljšanja na razini podatkovnih centara te tvrdi da postiže približno dvostruko veće performanse po vatu u odnosu na Ironwood, uz podršku za okvire poput JAX‑a, PyTorcha, SGLang‑a i vLLM‑a.

Zašto je to važno

Bit ove najave nije samo u impresivnim brojkama, nego u promjeni filozofije: univerzalni AI čip za sve namjene više nije dovoljan.

Jasnim razdvajanjem TPU 8t (treniranje) i TPU 8i (izvođenje) Google optimizira za dvije različite ekonomije:

Treniranje traži maksimalnu skalu i iskorištenost; svaka minuta praznog hoda pri modelima s desecima milijardi parametara košta ozbiljan novac.
Izvođenje traži stabilno kašnjenje i što niži trošak po upitu; neučinkovit hardver izravno nagriza marže SaaS proizvoda i API‑ja.

Kratkoročno, dobitnici su:

Postojeći korisnici Google Clouda koji već koriste TPU i dobivaju specijaliziranije resurse za treniranje i produkcijsko izvođenje.
Sam Google i njegova Gemini strategija; učinkovitije treniranje i jeftinija inferencija nužni su ako želite AI uključiti u pretraživanje, uredske alate i mobilne uređaje, a da se troškovi ne otmu kontroli.

U relativno težoj poziciji je Nvidia. Svaka nova generacija vlastitih čipova kod hiperskalera, koja barem približno drži korak s GPU‑ovima, smanjuje njihovu ovisnost o Nvidijinom cjenovnom diktatu. Kratki pad cijene dionice nakon objave, na koji podsjeća Ars Technica, pokazuje da financijska tržišta to razumiju.

Tu je i energetska dimenzija. Potrošnja struje i vode podatkovnih centara postaje usko grlo, posebno u EU. Dvostruko bolje performanse po vatu i pametnije tekućinsko hlađenje ne čine AI zelenim, ali kupuju vrijeme prije nego što regulatori ili operatori mreže počnu ozbiljnije ograničavati nove objekte.

Na kraju, važno je pitanje ovisnosti o jednom dobavljaču. Vertikalno integriran lanac – vlastiti ARM CPU, TPU, Googlovi softverski alati i podatkovni centri – tehnički je vrlo atraktivan, ali i vrlo vezujući. Poduzeća će morati odlučiti koliko im je ta učinkovitost vrijedna u odnosu na mogućnost da dijele radno opterećenje između različitih oblaka.

Šira slika

Googlov potez dio je šireg trenda: veliki pružatelji oblaka postaju dizajneri čipova jer si više ne mogu priuštiti da cijeli AI bum odrade na tuđem hardveru.

Amazon već ima Trainium (treniranje) i Inferentia (izvođenje). Microsoft razvija vlastite akceleratore (Maia) i ARM poslužitelje. Meta gradi MTIA čipove za inferenciju. Google je s TPU‑ovima bio rano u igri, a s jasnim razdvajanjem na 8t i 8i prelazi u fazu finije specijalizacije.

Naglasak na agentima tu nije slučajan. Veliki jezični modeli prelaze iz jednokratnog pitanja i odgovora u stalno aktivne agente koji zovu API‑je, pristupaju bazama podataka, surfaju i izvršavaju kod. To stvara nova opterećenja za hardver:

neredovite obrasce pristupa memoriji,
znatno duže kontekstne prozore,
velik broj paralelnih, ali malih upita.

Povećani on‑chip SRAM kod TPU 8i i veći podovi upravo su odgovor na takve uzorke. To se uklapa u utrku za modele s iznimno dugim kontekstom: bez odgovarajuće infrastrukture za izvođenje, teoretska prednost takvih modela ostaje na papiru.

Povijesno, obrazac je poznat. U prvim fazama digitalizacije sve se vrti na općoj svrsi (x86, standardne mrežne kartice), a zatim dolaze specijalizirani uređaji za baze, mrežu, video. Sada se isto događa s AI‑jem, ali u mnogo kraćem vremenu.

Novo je to što Google kontrolira gotovo cijeli vertikalni lanac: od čipa, preko mrežnih veza i topologije podatkovnih centara, do sustava hlađenja. Njihovi TPU podovi više nalikuju superračunalima koje sufinancira EU (EuroHPC) nego tipičnim podatkovnim centrima neke banke ili telekoma.

Europski i regionalni kut

Za EU i za Hrvatsku kao članicu, ova najava ističe i slabosti i prilike.

Slabost je jasna: ključna AI infrastruktura razvija se u SAD‑u. Hrvatski startupi, fakulteti ili javne institucije koji žele koristiti TPU 8t/8i to će raditi preko regija Google Clouda, vjerojatno lociranih u drugim državama članicama. Kontrola nad time kako se čipovi razvijaju, gdje se proizvode i po kojoj cijeni nude ipak ostaje izvan Europe.

S druge strane, fokus na energetsku učinkovitost dobro se uklapa u europsku regulativu:

Uredba o umjetnoj inteligenciji (EU AI Act) uvodi obveze za visokorizične sustave i velike modele, pri čemu je korišteni računski kapacitet važan kriterij. Učinkovitije treniranje može utjecati na to ispod kojih pragova obveza neki projekti ostaju.
Zeleni plan EU i nacionalne strategije, uključujući hrvatske ciljeve dekarbonizacije, ograničavaju nekontrolirani rast energetski intenzivnih podatkovnih centara. Tvrdnje o dvostruko boljem omjeru performanse po vatu i naprednijem hlađenju postat će dio pregovora s regulatorima i lokalnim zajednicama.

Za regionalne pružatelje oblaka u jugoistočnoj Europi realno je teško konkurirati TPU klasterima u sirovoj snazi. No mogu graditi prednost u blizini korisnika, prilagodbi lokalnim propisima i potencijalno otvorenijim softverskim stogovima. Što je Googlov TPU ekosustav zatvoreniji, to više prostora ostaje za rješenja temeljena na standardnim GPU‑ovima i budućim europskim inicijativama u području čipova.

Za hrvatske tvrtke i javni sektor praktično se postavlja pitanje: hoćete li najnaprednije AI mogućnosti kupovati isključivo od globalnih hiperskalera ili želite dio rješenja razvijati i smještati na infrastrukturi pod većom domaćom ili europskom kontrolom?

Pogled unaprijed

U sljedećih 12 do 24 mjeseca vjerojatni su sljedeći trendovi.

Prvo, još veća specijalizacija hardvera. Podjela na 8t i 8i vjerojatno je tek početak. Vidjet ćemo konfiguracije optimizirane za specifične poslove: pretraživanje s proširenim priklicem dokumenata, pomoćnike za programere, multimodalne modele i slično.

Drugo, rat cijena bit će oštriji. Iako se u naslovima spominju eksaFLOPS, stvarne odluke donosit će se na temelju cijene po milijunu tokena, trajanja i cijene finog treniranja većih modela te računa za struju. Ako Google uspije ponuditi znatno jeftiniju inferenciju na TPU 8i nego na GPU‑ovima za određene zadatke, dio radnih opterećenja preselit će se na njihov stack.

Treće, jačat će regulatorni interes za samu infrastrukturu. AI Act već otvara vrata ograničenjima temeljenima na izračunatoj snazi; nacionalna tijela mogu dodatno uvjetovati vrlo velike trening klastere energetskim i okolišnim zahtjevima. Googlov narativ o zajedničkom dizajnu čipova i podatkovnih centara treba čitati i kao pripremu na takve rasprave.

Za hrvatski i širi SEE startup ekosustav ključno će biti naučiti živjeti u svijetu više akceleratora: Nvidia, Google TPU, možda AMD i buduća europska rješenja. Tehnički timovi morat će paziti da ne zaključe svoju infrastrukturu u jedan zatvoreni kut, iz kojeg se kasnije teško izlazi.

Zaključak

TPU 8t i 8i nisu samo još jedan brži čip, već instrument kojim Google pokušava prepisati ekonomiju velikih AI sustava u svoju korist. Razdvajanjem treniranja i izvođenja, prelaskom na ARM u poslužiteljima i lovom na svaki postotak uštede, kompanija se priprema za svijet u kojem će AI agenti biti osnovna infrastruktura.

Za hrvatske i regionalne organizacije ključno je pitanje: koliko ste spremni vezati se uz jednog globalnog pružatelja u zamjenu za jeftiniju i bržu umjetnu inteligenciju? Utrka nije samo u FLOPS‑ima, već i u kilovatsatima – i u tome tko kontrolira fizički sloj buduće digitalne ekonomije.

Googlov TPU 8t i 8i: kako podjela čipa na učenje i izvođenje mijenja igru za AI

Uvod

Vijest ukratko

Zašto je to važno

Šira slika

Europski i regionalni kut

Pogled unaprijed

Zaključak

Komentari

Ostavite komentar

Povezani članci

ChatGPT Images 2.0: Indija je poligon za masovnu AI, Europa tek promatra

Kad AI dođe na selo: što američki rat oko podatkovnih centara znači za Hrvatsku

GitHub Copilot pod nadzorom: zašto završava „flat rate“ AI kodiranje

Ostani informiran