OpenAI se reorganiza para apostar por voz y hardware de audio hasta 2027

2 de enero de 2026
5 min de lectura
Sam Altman hablando en el escenario durante el DealBook Summit 2024

OpenAI quiere que hablemos más y tecleemos menos. Según un reportaje de The Information recogido por Ars Technica, la empresa está reorganizando equipos y preparando tanto un nuevo modelo de voz como dispositivos físicos centrados en audio.

El primer hito llegará en el primer trimestre de 2026: un nuevo modelo de lenguaje enfocado en audio. Dentro de OpenAI, ese modelo se ve como un paso directo hacia un dispositivo físico basado en voz que podría llegar aproximadamente un año después.

La voz va por detrás del texto

Fuentes citadas por The Information aseguran que OpenAI ha fusionado varios equipos de ingeniería, producto e investigación bajo una misma iniciativa dedicada a mejorar los modelos de audio.

El motivo: en la propia compañía reconocen que sus modelos de voz van por detrás de los de texto, tanto en precisión como en velocidad. Y eso se nota en el uso real: aunque ChatGPT ofrece interfaz por voz, la mayoría de usuarios sigue prefiriendo escribir.

La apuesta es clara: si logran que los modelos de audio sean mucho mejores, quizá cambien los hábitos y la voz pase de ser algo puntual a convertirse en la forma principal de interactuar con la IA, sobre todo en contextos donde una pantalla estorba, como el coche.

De modelos a dispositivos

OpenAI no se conforma con mejorar el software. Según el reportaje, planea lanzar una “familia” de dispositivos físicos, empezando por uno claramente centrado en audio.

Dentro de la empresa se han barajado varios formatos posibles: altavoces inteligentes, gafas inteligentes y otros gadgets donde el audio sea protagonista. Aún no hay datos públicos sobre diseño, especificaciones o nombre comercial, pero la idea común es evidente: hablar en vez de tocar, escuchar en vez de mirar.

El primer dispositivo de este tipo se espera aproximadamente un año después del modelo de audio, aunque los calendarios de hardware suelen ser delicados.

Segunda ola de asistentes de voz

La industria ya vivió una primera ola con Alexa, Google Assistant y, en menor medida, Siri. Estos asistentes encontraron su hueco, sobre todo entre usuarios menos obsesionados con la última tecnología.

Pero también chocaron con límites claros: comandos rígidos, poco contexto y funciones bastante cerradas.

Los grandes modelos de lenguaje (LLM) como los que usa ChatGPT prometen cambiar ese guion. Un asistente capaz de entender preguntas abiertas, seguir instrucciones largas y recordar el contexto podría convertir un altavoz o unas gafas en algo mucho más flexible que un simple sistema de órdenes por voz.

Eso sí, cuanto más potente es el asistente, mayores son los riesgos: desde información errónea hasta problemas de privacidad con dispositivos que están siempre escuchando.

Todos quieren dominar el audio

OpenAI no compite solo. Google, Meta, Amazon y otros gigantes están redirigiendo inversión y talento hacia interfaces de voz y audio.

Meta, por ejemplo, está apostando fuerte por gafas inteligentes como alternativa parcial al móvil, con micrófonos y cámaras respaldados por modelos de IA. Google y Amazon siguen evolucionando sus plataformas de asistentes y tratan de integrar LLMs en productos ya existentes.

Si OpenAI lanza su propia línea de hardware, pasará de ser solo el proveedor de modelos para terceros a competir también en el terreno de los dispositivos.

¿Menos pantalla, menos adicción?

Algunas figuras destacadas del diseño y la IA –entre ellas el exjefe de diseño de Apple, Jony Ive– sostienen que los dispositivos controlados por voz podrían ser menos adictivos que los de pantalla. Ven en el audio una forma de “bajar el volumen” de la interfaz visual y devolver la atención al entorno.

De momento hay pocas pruebas sólidas que respalden esa idea, y no está claro cómo encaja exactamente en la estrategia de OpenAI. Lo que sí deja ver esta reorganización es que la empresa ve en la voz tanto una oportunidad de negocio como una nueva capa donde desplegar sus modelos.

El mapa, según The Information y Ars Technica, quedaría así:

  • nuevo modelo de lenguaje para audio en el primer trimestre de 2026
  • reagrupación de equipos de ingeniería, producto e investigación en torno al audio
  • primer dispositivo físico centrado en voz aproximadamente un año después
  • plan a más largo plazo para una familia de dispositivos orientados al audio, con formatos como altavoces o gafas inteligentes sobre la mesa

La batalla por la próxima generación de interfaces de IA no será solo cosa de pantallas táctiles. También se jugará en nuestros micrófonos y auriculares.

Comentarios

Deja un comentario

Aún no hay comentarios. ¡Sé el primero!

Publicaciones relacionadas

Mantente informado

Recibe las últimas noticias de IA y tecnología en tu correo.