Spanish English Eesti French German Italian Portuguese
Marketing Social
InicioIAgenAIDeepL lanza DeepL Voice, traducciones en tiempo real basadas en voces y...

DeepL lanza DeepL Voice, traducciones en tiempo real basadas en voces y vídeos

DeepL se ha hecho un nombre con la traducción de textos online que, según afirma, es más precisa que servicios de empresas como Google, una propuesta que ha catapultado a la startup alemana a una valoración de 2.000 millones de dólares y más de 100.000 clientes de pago.

A medida que el entusiasmo por los servicios de inteligencia artificial continúa creciendo, DeepL está agregando otro modo a la plataforma: audio. Los usuarios podrán utilizar DeepL Voice para escuchar a alguien hablando en un idioma y traducirlo automáticamente a otro, en tiempo real.

Inglés, alemán, japonés, coreano, sueco, holandés, francés, turco, polaco, portugués, ruso, español e italiano son idiomas que DeepL puede “escuchar” hoy en día. Los subtítulos traducidos están disponibles para los 33 idiomas actualmente admitidos por DeepL Translator.

Actualmente, DeepL Voice no llega a entregar el resultado como un archivo de audio o video: el servicio está dirigido a conversaciones en directo y videoconferencias en tiempo real, y se presenta como texto, no como audio.

En el primero de ellos, se pueden configurar sus traducciones para que aparezcan como ‘espejos’ en un teléfono inteligente: se coloca, por ejemplo, el teléfono entre las personas en una mesa de reuniones para que cada uno vea las palabras traducidas o como una transcripción que se comparte al lado de alguien. El servicio de videoconferencias ve las traducciones apareciendo como subtítulos.

Eso podría ser algo que con el tiempo cambie, insinuó Jarek Kutylowski, fundador y director ejecutivo de la compañía. Este es el primer producto de voz de DeepL, pero es poco probable que sea el último. Ahí es donde se desarrollará la traducción el próximo año”, añadió.

Hay otras pruebas que respaldan esa afirmación. Google, uno de los mayores competidores de DeepL, también comenzó a incorporar subtítulos traducidos en tiempo real en su servicio de videoconferencia Meet. Y hay una multitud de nuevas empresas de IA que crean servicios de traducción de voz, como el especialista en voz de IA Eleven Labs (Once Labs), y Panjaya, que crea traducciones utilizando voces y videos “deepfake” que coinciden con el audio.

Este último utiliza la API de Eleven Labs y, según Kutylowski, Eleven Labs está utilizando tecnología de DeepL para impulsar su servicio de traducción.

La salida de audio no es la única característica que aún está por lanzarse.

Tampoco existe una API para el producto de voz en este momento. El negocio principal de DeepL se centra en B2B y Kutylowski dijo que la compañía está trabajando con socios y clientes.

Tampoco hay una amplia variedad de integraciones: el único servicio de videollamadas que admite subtítulos de DeepL actualmente es Teams, que «cubre a la mayoría de nuestros clientes», dijo Kutylowski. No se sabe cuándo o si Zoom o Google Meet incorporarán DeepL Voice en el futuro.

Los usuarios de DeepL pueden pensar que el producto tardará mucho en llegar, no solo porque hemos estado inundados de una gran cantidad de otros servicios de voz de IA destinados a la traducción. Kutylowski dijo que esta ha sido la solicitud número uno de los clientes desde 2017, el año en que se lanzó DeepL.

Parte del motivo de la espera es que DeepL ha adoptado un enfoque bastante claro para desarrollar su producto. A diferencia de muchas otras en el mundo de las aplicaciones de IA que se apoyan y modifican los grandes modelos de lenguaje (LLM) de otras empresas, el objetivo de DeepL es construir su servicio desde cero. En julio, la empresa liberó un nuevo LLM optimizado para traducciones que, según dice, supera a GPT-4, Google y Microsoft, sobre todo porque su objetivo principal es la traducción. La empresa también ha seguido mejorando la calidad de su producción escrita y su glosario.

De igual modo, uno de las ofertas de valor únicas de DeepL Voice es que funcionará en tiempo real, lo cual es importante ya que muchos servicios de «traducción de IA» en el mercado en realidad funcionan con retardo, lo que los hace más difíciles o imposibles de usar en situaciones en directo, qué es el caso de uso que aborda DeepL.

Kutylowski insinuó que esta era otra razón detrás de por qué el nuevo producto de procesamiento de voz se centra en traducciones basadas en texto es que se pueden computar y producir muy rápido, mientras que el procesamiento y la arquitectura de IA aún tienen un camino por recorrer antes de poder producir audio y vídeo tan rápido.

Las videoconferencias y las reuniones probablemente sean casos de uso para DeepL Voice, pero Kutylowski señaló que otro mercado importante que visualizan es en la industria de servicios, donde los trabajadores de primera línea en, por ejemplo, restaurantes podrían usar el servicio para ayudar a comunicarse con los clientes más fácilmente.

Esto podría resultar útil, pero también resalta uno de los puntos más difíciles de este servicio. En un mundo en el que de repente todos somos mucho más conscientes de la protección de datos y nos preocupamos por cómo los nuevos servicios y plataformas están usando información privada o patentada, queda por ver hasta qué punto las personas estarán interesadas en que sus voces sean recogidas y utilizadas de esta manera.

Kutylowski insistió en que, aunque las voces viajarán a sus servidores para ser traducidas (el procesamiento no se realiza en el dispositivo), sus sistemas no retienen nada ni lo utilizan para capacitar a sus LLM. En última instancia, DeepL trabajará con sus clientes para asegurarse de que no violen el GPRD ni ninguna otra normativa de protección de datos.

RELACIONADOS

SUSCRÍBETE A TRPLANE.COM

Publica en TRPlane.com

Si tienes alguna historia interesante sobre transformación, IT, digital, etc con cabida en TRPlane.com por favor envíanosla y la compartiremos con toda la Comunidad

MÁS PUBLICACIONES

Activar Notificaciones OK No gracias