OpenAI lanza una transmisión de audio capaz de clonar voces humanas

Clona tu voz humana de forma fiel con una canción de sólo 15 segundos. Aquí es donde vemos lo último en inteligencia artificial creada por OpenAI, la empresa que revela el mundo con ChatGPT, su programa de lenguaje de IA generativa.

“Hoy comparaciones de información y resultados preliminares de una vista previa tienen una pequeña escala de un modelo llamado Voice Engine, que utiliza texto y un modo de audio único de 15 segundos para generar un comportamiento natural que se asienta mucho en el idioma original. Es notable que un modelo pequeño con una sola pantalla de 15 segundos puede crear voces emotivas y realistas”, indica la firma que dirige Sam Altman a través de un comunicado.

Todo lo que tienes que hacer es dañar al usuario y llevar esta función. Una vez que sepas que el programa Voice Engine está ahí, podrás obtener el tono y tono de tu mensaje de texto para hacerlo más fácil. El mensaje de texto no contiene nada que esté en el mismo idioma. Un hablante de español puede facilitar el juego en su idioma e idioma enviando un mensaje a su texto en inglés, chino u otros idiomas.

También puedes usarlo directamente para la traducción de audios. Sin embargo, cuando se utiliza para traducir, Voice Engine conserva la voz nativa del hablante original: por ejemplo, cuando se habla en inglés con una pista de audio de un hablante francés, produce una voz con hablantes franceses.

Uso restringido

La empresa prefiere iniciar ahora una pequeña prueba para facilitar el acceso generalizado al dispositivo, como ocurre con ChatGPT, y es consciente del riesgo de sustitución de identidad. Con el dispositivo hay que grabar 15 segundos en el idioma para hacerse con su voz.

“Adoptamos un dispositivo cauteloso e informado antes de lanzarnos más plenamente al potencial del uso irrestricto de las voces sintéticas”, indica OpenAI. “Esperamos iniciar un diálogo para que sea responsable de las voces sintóticas y de cómo puede adaptar la empresa a sus nuevas capacidades. En base a estas conversaciones y los resultados de estas escaladas a pequeña escala, tomamos una decisión más informada si esta tecnología se utiliza a gran escala y nos gusta hacerlo”, y así sucesivamente.

OpenAI considera que antes de generalizar el acceso a la nueva herramienta, hay que tomar decisiones sobre una serie de aspectos. Por ejemplo, elimine gradualmente su autenticación como medida de seguridad para acceder a información bancaria y otra información confidencial, lo que puede causar que se pierda su seguridad.

También consideran necesario explorar políticas para proteger el uso de las voces de los individuos en la inteligencia artificial. El riesgo de manipulación y desinformación es especialmente marcado en el caso de figuras públicas, incluidos los políticos.

Por lo tanto, también afirmamos que educamos al público para que comprendamos las capacidades y limitaciones de las tecnologías de IA, incluida la posibilidad de interactuar con contenidos de IA.

También se sugiere que esta mesa consista en acelerar el inicio y adoptar técnicas para capturar el origen del contenido audiovisual, de modo que quede claro cuando interactúa con una persona real o con una IA.

“Es importante que la gente de todo el mundo entienda que están dirigidos a esta tecnología, así al final nos desplegamos ampliamente nosotros mismos como si no. Esperamos participar en conversaciones sobre retroalimentación y oportunidades para voces sintéticas con líderes políticos, investigadores, desarrolladores y creadores”, concluye OpenAI.

En su camino hacia la innovación, OpenAI ha lanzado su propio lenguaje, pero también la generación de imágenes y vídeos. Mi pasado presentó Sora, una revolución del vídeo que me dejó un mensaje de texto para crear un vídeo corto con el contenido y el contenido solicitado.

Puedes seguir a EL PAÍS Tecnología en Facebook y X donde necesitas recibirlo nuevamente boletín semanal.