OpenAI se pripravlja na naslednji večji premik: od zaslonov k zvoku. Po poročanju The Information, na katerega se sklicuje Ars Technica, podjetje združuje več ekip in načrtuje lastne avdio‑prve naprave.
Ključni mejnik bo nov govorni (audio) jezikovni model, ki naj bi bil predstavljen v prvem četrtletju 2026. Znotraj podjetja ga vidijo kot korak proti fizični napravi, osredotočeni na zvok, ki bi lahko prišla približno leto kasneje.
Zakaj OpenAI gradi okoli zvoka
Viri The Information pravijo, da je OpenAI pod eno pobudo združil inženirske, produktne in raziskovalne ekipe, ki delajo na zvoku. Razlog je preprost: v podjetju menijo, da njihovi govorni modeli zaostajajo za besedilnimi – tako po natančnosti kot po hitrosti.
Tudi vedenje uporabnikov to potrjuje. ChatGPT sicer podpira glasovni vmesnik, a ga uporablja razmeroma malo ljudi. Večina ostaja pri tipkanju. OpenAI upa, da lahko z bistveno boljšimi avdio modeli spremeni te navade in postavi glas v ospredje.
Če jim uspe, bo uporaba modelov v okoljih brez zaslonov – v avtomobilih, slušalkah ali v domačih napravah – precej bolj naravna.
Od modelov do naprav
OpenAI ne optimizira le programske opreme. Po poročanju načrtuje »družino« fizičnih naprav, pri čemer bo prva močno osredotočena na avdio.
Znotraj podjetja so se že pojavile različne ideje: pametni zvočniki, pametna očala in druge avdio‑prve naprave. Za zdaj ni javno znanih tehničnih podrobnosti ali končne oblike, skupna nit pa je jasna: interakcija poteka predvsem z govorom, ne preko zaslona.
Prva naprava, usmerjena v zvok, je trenutno pričakovana približno leto po novem avdio modelu, časovnice strojne opreme pa se v praksi pogosto zamaknejo.
Asistenti na glas, drugi poskus
To ni prvič, da industrija stavi na glas. Pred nekaj leti smo imeli razcvet naprav z Alexo, Google Assistantom in delno tudi Applovim Sirijem.
Ti asistenti so bili za določene skupine uporabnikov zelo uporabni, a omejeni: togi ukazi, plitko razumevanje konteksta in omejene, vnaprej definirane funkcije.
Veliki jezikovni modeli (LLM) – kot tisti, ki poganjajo ChatGPT – bi lahko te omejitve vsaj delno odpravili. Bolj pogovoren model, ki razume odprta vprašanja, sledi več korakom in si zapomni kontekst, lahko iz pametnega zvočnika ali očal naredi precej bolj fleksibilnega asistenta.
A s tem pridejo tudi nova tveganja: od napačnih informacij do vprašanj zasebnosti in varnosti pri vedno poslušajočih napravah.
Konkurenca ne spi
OpenAI ni sam. Google, Meta, Amazon in drugi pospešeno vlagajo v glasovne in avdio vmesnike.
Meta na primer agresivno potiska pametna očala kot alternativo telefonu, z mikrofoni in kamerami, ki jih poganjajo AI modeli. Google in Amazon nadgrajujeta svoje asistente ter v obstoječe glasovne produkte vgrajujeta LLM‑je.
Če bo OpenAI res začel prodajati lastno strojno opremo, ne bo več le dobavitelj modelov drugim, temveč neposreden tekmec tudi na ravni naprav.
Manj zaslonov, več glasu?
Nekateri znani ustvarjalci AI naprav – med njimi tudi nekdanji Applov oblikovalski vodja Jony Ive – verjamejo, da so glasovno upravljane naprave lahko manj zasvojljive kot zasloni. To navajajo kot razlog, da želijo računalništvo »umakniti v ozadje«.
Doslej ni veliko trdnih dokazov, da to res drži, in ni jasno, ali OpenAI uradno zagovarja isti argument. Je pa jasno, da podjetje vidi poslovno priložnost in način, kako razširiti, kje in kako ljudje uporabljajo njegove modele.
Na podlagi poročanja The Information in Ars Technice je okvirni načrt takšen:
- nov govorni jezikovni model v prvem četrtletju 2026
- reorganizacija, ki pod eno streho združuje avdio ekipe za inženiring, produkt in raziskave
- prva avdio‑usmerjena naprava približno leto kasneje
- dolgoročnejši načrti za širšo družino avdio‑prvih naprav, potencialno tudi pametne zvočnike in očala
Za slovensko AI in startup skupnost to pomeni, da bo naslednja faza tekme za asistente potekala manj na zaslonih in precej bolj v slušalkah in zvočnikih – kjer bo glas ključni vmesnik.



