OpenAI se okreće zvuku: novi glasovni model i audio hardver do 2027.

2. siječnja 2026.
5 min čitanja
Sam Altman govori na pozornici na konferenciji DealBook Summit 2024.

OpenAI sprema novu rundu u AI utrci – ovaj put kroz zvuk. Prema pisanju The Information, koje prenosi Ars Technica, tvrtka reorganizira interne timove i planira i novi glasovni model i vlastite audio uređaje.

Prvi korak stiže u prvom tromjesečju 2026., kada OpenAI planira predstaviti novi audio jezični model. Unutar tvrtke taj se model vidi kao namjeran korak prema fizičkom uređaju fokusiranom na zvuk, koji bi mogao doći otprilike godinu kasnije.

Zašto baš glas

Kako navodi The Information, OpenAI je spojio više inženjerskih, produktnih i istraživačkih timova u jednu inicijativu posvećenu audio modelima.

Razlog: u tvrtki smatraju da njihovi glasovni modeli zaostaju za tekstualnima po točnosti i brzini. To se vidi i na terenu – iako ChatGPT ima glasovno sučelje, većina korisnika ipak bira tipkanje.

Ideja je da drastično bolji audio modeli mogu promijeniti navike i pogurati glas kao primarni način korištenja AI‑ja, posebno u okruženjima gdje je ekran nezgodan ili opasan – recimo u autu.

Od modela do uređaja

OpenAI ne cilja samo na softver. Prema izvještaju, tvrtka planira čitavu obitelj fizičkih uređaja, a prvi u nizu trebao bi biti orijentiran na audio, a ne na ekran.

Unutar kompanije razmatrani su razni formati: pametni zvučnici, pametne naočale i drugi gadgeti u kojima je glas glavni način interakcije. Za sada nema javno poznatih specifikacija ni dizajna, ali zajednička ideja je jasna: razgovarate s uređajem, umjesto da gledate u njega.

Prvi audio uređaj trenutno se očekuje otprilike godinu dana nakon novog modela, iako su rokovi za hardver notorno klizni.

Drugi val glasovnih asistenata

Ovo nije prvi hype oko glasa. Prije nekoliko godina imali smo eksploziju Alexa, Google Assistant i u manjoj mjeri Siri uređaja.

Ti asistenti su našli svoju publiku, posebno među „mainstream“ korisnicima, ali su imali ozbiljna ograničenja: kruti glasovni naredbeni sustavi, slabo razumijevanje konteksta i uski skup unaprijed definiranih funkcija.

Asistenti temeljeni na velikim jezičnim modelima mogli bi ta ograničenja barem djelomično razbiti. Razgovorni model koji razumije otvorena pitanja, može pratiti višekorakne upute i pamti kontekst čini pametni zvučnik ili naočale puno fleksibilnijim.

Naravno, s većom moći dolaze i nova rizika – od krivih informacija do ozbiljnih pitanja privatnosti kod uređaja koji stalno slušaju.

Konkurencija iz Googlea, Mete i Amazona

OpenAI u audio nije krenuo sam. Google, Meta, Amazon i drugi sve više usmjeravaju istraživanje i razvoj na glas i audio sučelja.

Meta posebno gura pametne naočale kao potencijalnu alternativu telefonu, s mikrofonima i kamerama koje pokreću AI modeli. Google i Amazon nastavljaju razvijati svoje asistente i pokušavaju na njih nadograditi velike jezične modele.

Ako OpenAI izađe na tržište s vlastitim uređajima, više neće biti samo dobavljač modela za druge, nego i direktan konkurent u hardveru – što je za regionalne igrače u AI‑ju i IoT‑u važan signal gdje se tržište kreće.

Manje ekrana, ali koliko manje ovisnosti?

Neki poznati kreatori AI proizvoda – među njima i bivši šef dizajna u Appleu Jony Ive – tvrde da bi glasom kontrolirani uređaji mogli biti manje adiktivni od onih sa zaslonom. To navode kao motiv da računalstvo „gurnu u pozadinu“.

Za sada nema puno čvrstih dokaza da je to stvarno tako, niti je jasno koliko taj argument igra ulogu u strategiji OpenAI‑ja. Ono što reorganizacija ipak otkriva jest da tvrtka glas vidi i kao biznis priliku i kao novu platformu za svoje modele.

Na temelju izvještaja The Information i Ars Technice, okvirni plan izgleda ovako:

  • novi audio jezični model u prvom tromjesečju 2026.
  • spajanje inženjerskih, produktnih i istraživačkih timova oko audio fokusa
  • prvi fizički uređaj usmjeren na glas otprilike godinu dana kasnije
  • dugoročniji plan za čitavu liniju audio‑prvih uređaja, potencijalno uključujući pametne zvučnike i naočale

Za zajednicu u Hrvatskoj i regiji, poruka je jasna: sljedeća faza AI sučelja neće se voditi samo na ekranima, nego i kroz mikrofone, slušalice i zvučnike – gdje će upravo glas biti ključan kanal.

Komentari

Ostavite komentar

Još nema komentara. Budite prvi!

Povezani članci

Ostani informiran

Primaj najnovije vijesti iz svijeta AI i tehnologije.