Voice Engine: nueva IA de OpenAI

Tiempo de lectura: 5 minutos

Compartir en redes

Voice Engine, la nueva IA de OpenAI puede crear una voz sintética basada en un clip de 15 segundos de la voz de alguien. La voz generada por IA puede leer indicaciones de texto cuando se le ordena en el mismo idioma que el hablante o en varios otros idiomas. Por el momento el acceso a esta plataforma de generación de texto a voz es limitado. ¡Vamos a verlo!

Qué es Voice Engine

Voice Engine es una inteligencia artificial capaz de crear una copia sintética de una voz, imitando su tono con tan solo escucharla durante 15 segundos.

OpenAI dijo que comenzó a desarrollar Voice Engine a finales de 2022 y que la tecnología ya ha impulsado voces preestablecidas para la API de conversión de texto a voz y la función Leer en voz alta de ChatGPT. En una entrevista con TechCrunch, Jeff Harris, miembro del equipo de producto de OpenAI para Voice Engine, dijo que el modelo fue entrenado en «una combinación de datos con licencia y disponibles públicamente«. OpenAI dijo a la publicación que el modelo sólo estará disponible para unos 10 desarrolladores.

La generación de texto a audio con IA es un área de la IA generativa que continúa evolucionando. Si bien la mayoría se centra en sonidos instrumentales o naturales, menos se han centrado en la generación de voz, en parte debido a las preguntas citadas por OpenAI.

Beneficios y consideraciones éticas

OpenAI dice que los beneficios de su tecnología de voz incluyen brindar asistencia de lectura a través de voces que suenan naturales, permitir un alcance global para los creadores al traducir contenido mientras se preservan los acentos nativos, apoyar a las personas con problemas en el habla con opciones de habla personalizadas y ayudar a los pacientes a recuperar su propia voz después de tener condiciones que afectan el habla.

Pero también significa que cualquier persona con 15 segundos de la voz grabada de alguien podría clonarla efectivamente, y eso tiene implicaciones obvias para un posible uso indebido. Incluso si OpenAI nunca lanza ampliamente su motor de voz, la capacidad de clonar voces ya ha causado problemas en la sociedad a través de estafas telefónicas en las que alguien imita la voz de un ser querido y llamadas automáticas de campañas electorales con voces clonadas de políticos como Joe Biden.

OpenAI reconoce que la tecnología podría causar problemas si se lanza ampliamente y prematuramente, por lo que inicialmente está tratando de solucionar esos problemas con un conjunto de reglas. Ha estado probando la tecnología con un conjunto de empresas asociadas selectas desde el año pasado.

De uso restringido, por el momento

Según OpenAI, sus socios acordaron cumplir con sus políticas de uso que dicen que no utilizarán Voice Engine para hacerse pasar por personas u organizaciones sin su consentimiento. También requiere que los socios obtengan el “consentimiento explícito e informado” del hablante original, no creen formas para que los usuarios individuales creen sus propias voces y revelen a los oyentes que las voces son generadas por IA. OpenAI también agregó marcas de agua a los clips de audio para rastrear su origen y monitorear activamente cómo se usa el audio.

OpenAI sugirió varios pasos que cree que podrían limitar los riesgos en torno a herramientas como estas, incluida la eliminación gradual de la autenticación basada en voz para acceder a cuentas bancarias, políticas para proteger el uso de las voces de las personas en la IA, una mayor educación sobre los deepfakes de IA y el desarrollo de sistemas de seguimiento de contenido de IA.

¿Cómo puedo usar Voice Engine?

Para usar Voice Engine basta con una entrada de texto con la descripción de lo que deseamos y una muestra de audio de 15 segundos para crear un clip. Y, una vez hechos todos estos pasos, la IA creará una voz similar a la humana.

Por otro lado, respecto a sus usos, OpenAI explica en su blog oficial que Voice Engine puede proporcionar asistencia de lectura, traducir contenido, mejorar la prestación de servicios en entornos remotos, ayudar a pacientes a recuperar su voz o apoyar a personas que no usen la comunicación verbal, entre otros.

Voice Engine todavía no está disponible para los usuarios, sin embargo, OpenAI ha decidido hacer una vista previa de esta tecnología en su blog oficial para destacar su potencial.

Este es el ejemplo de un audio de 15 segundos de duración que deberíamos utilizar junto con el texto del mismo:

Y estos son 3 versiones de audio creadas por Voice Engine a partir de la fuente original:

Como podemos comprobar, la IA ha conseguido crear prácticamente a la perfección (tanto que da un poco de miedo) los 3 nuevos audios y las diferencias son imperceptibles. Como todo en este nuevo paradigma en el que estamos, la Inteligencia Artificial nos otorga nuevas herramientas pero, a su vez, ocasiona un cierto escepticismo acerca de cómo plantear su uso.