La empresa respaldada por Lightspeed Ventures, Pocket FM, se ha asociado con ElevenLabs, una empresa especializada en clonación de voz, con el objetivo de transformar de manera eficiente textos, como guiones, en series de audio mediante el uso de inteligencia artificial.
En marzo, la empresa Pocket FM obtuvo una financiación de 103 millones de dólares en la ronda de financiación Serie D. En ese momento, informó que estaba explorando la posibilidad de transformar contenido escrito en formato de audio mediante la tecnología desarrollada por ElevenLabs. Actualmente, la compañía con sede en India ha expandido esta colaboración para permitir que todos los creadores tengan acceso a esta herramienta de conversión en las próximas semanas.
Durante la etapa de prueba, la plataforma Pocket FM ha generado 30.000 horas de series de audio mediante la implementación de la tecnología de inteligencia artificial desarrollada por ElevenLab. Con su reciente lanzamiento, la empresa aspira a triplicar su catálogo de contenido, el cual actualmente supera las 100.000 horas de material auditivo. Asimismo, Pocket FM ha comunicado que, en el transcurso de la fase experimental, las herramientas basadas en inteligencia artificial contribuyeron a una reducción del 90% en los costes de producción de audio.

Imagen: Pocket FM
Durante una entrevista, Prateek Dixit, cofundador y director de tecnología de Pocket FM, expresó que la compañía busca simplificar el proceso para que los escritores puedan transformar sus textos en series de audio a través de esta colaboración.
Según sus declaraciones, la asociación con la compañía ha permitido reducir los gastos de configuración y grabación de audio para los más de 250.000 escritores, que incluyen a aquellos que forman parte de la plataforma de escritura Pocket Novel.
Según el experto, a pesar de contar con una adecuada configuración de herramientas y equipos de grabación, los escritores tienen la capacidad de generar alrededor de 30 minutos diarios de contenido de audio de alta calidad. Además, destacó que mediante el uso de herramientas de Inteligencia Artificial (IA), esta producción podría incrementarse hasta diez veces.
La empresa Pocket FM ha desarrollado una herramienta que incorpora la tecnología de ElevenLabs, la cual proporciona 50 voces para autores interesados en transformar su contenido. Según el cofundador de ElevenLabs, Mati Staniszewski, la herramienta de la empresa es capaz de comprender el contexto del texto y deducir emociones para la generación automática de voz.
Staniszewski afirmó que al colaborar con Pocket FM, se están aplicando los modelos más recientes que abarcan el género de escritura y presentan un enfoque más emocional.
Según Dixit, la plataforma tiene la intención de recomendar voces que sean adecuadas para escritores de un género específico, basándose en los datos de participación de los usuarios con dicho contenido.
Kuku FM, respaldada por Google, no es la única plataforma de series de audio que está explorando el uso de herramientas basadas en inteligencia artificial. Además de Pocket FM, Kuku FM está empleando tecnologías como GPT-4, Claude, BandLab y ElevenLabs para asistir a sus escritores en diversas etapas del proceso creativo. Estas etapas incluyen la mejora del guión, la creación de miniaturas, la incorporación de efectos de sonido y la transformación de texto en audio.
Kuku FM está explorando la utilización de herramientas de generación visual como Midjourney y Runway para la creación de anuncios vinculados al contenido.
Calidad del contenido e impacto en los artistas
La promesa de las herramientas impulsadas por inteligencia artificial es aumentar la producción de contenido de manera más eficiente, sin embargo, la calidad del contenido no está garantizada. En este sentido, Pocket FM ha desarrollado una estrategia para mejorar el descubrimiento y la presentación de contenido de alta calidad, la cual se basa en la sofisticación de su algoritmo de recomendación y en la experimentación con la interacción del usuario.
Dixit explicó que, en caso de que un autor lance una serie de contenido auditivo, este será presentado a un grupo específico de usuarios para luego analizar las métricas de participación. En caso de que dichas métricas arrojen resultados favorables, se procederá a amplificar la difusión del contenido.
Kuku FM ha comunicado que se encuentra colaborando con su equipo de control de calidad con el fin de asegurar la promoción exclusiva de contenido de alta calidad en su aplicación, aun cuando los creadores hayan empleado inteligencia artificial en el proceso.
El cofundador y director ejecutivo de la compañía, Lal Chand Bisu, destacó la relevancia de contar con un equipo de Control de Calidad en el proceso de toma de decisiones en la producción de contenido de audio. Se ha establecido un equipo central de productores de contenido con un fuerte compromiso y autoridad en relación a los estándares artísticos.
La implementación de la inteligencia artificial (IA) en estas plataformas podría acelerar la producción de contenido y ampliar su biblioteca, aunque conllevará la disminución de las responsabilidades de los locutores que colaboran con dichas plataformas. La Asociación de Artistas de Locución de la India (AVA) ha manifestado su inquietud ante la introducción de la IA.
Amarinder Singh Sodhi, secretario general de la asociación, expresó su preocupación por el posible dominio de la inteligencia artificial y la necesidad de implementar regulaciones para salvaguardar los medios de vida de los locutores, en una entrevista con la publicación india Scroll.
Sodi informó a Scroll acerca de situaciones en las que locutores fueron convocados al estudio para registrar muestras destinadas al entrenamiento de inteligencia artificial, sin haber dado su consentimiento previo ni haber sido debidamente informados al respecto.
Según Aditya Mattoo, locutor con residencia en Delhi, el uso de la inteligencia artificial en la narración de historias está generando temor a nivel emocional, ya que se percibe como una disminución de la experiencia humana y una pérdida de la conexión emocional en dicho proceso.
El autor argumentó que otorgar acceso a suscripciones premium a individuos sin la experiencia ni destreza para generar contenido de alta calidad resultará en una saturación del mercado con material de baja calidad.
En diversas regiones del mundo, artistas vocales han manifestado inquietud respecto al impacto de la inteligencia artificial en sus labores. A pesar de colaborar con algunas compañías del ámbito de la inteligencia artificial, experimentan incomodidad ante la modificación de sus voces.
Al cuestionar acerca del impacto de la generación de voz impulsada por inteligencia artificial en Pocket FM, la empresa no proporcionó una respuesta directa. No obstante, Dixit destacó que la interacción con el contenido generado por inteligencia artificial en sus experimentos es equiparable a la producción de voz en off realizada por seres humanos. Específicamente, la compañía está desarrollando tecnología para integrar diversas voces en una misma salida de audio.
En la actualidad, tanto Pocket FM como Kuku FM no clasifican su contenido para señalar el uso de Inteligencia Artificial en el proceso de creación.