La empresa de IA Sesame ha liberado el modelo base que respalda a Maya, el impresionantemente realista asistente de voz.
El modelo, que tiene un tamaño de mil millones de parámetros («parámetros» que se refieren a los componentes individuales del modelo), está bajo una licencia Apache 2.0, lo que significa que puede usarse comercialmente con pocas restricciones. Llamado CSM-1B, el modelo genera «códigos de audio RVQ» a partir de entradas de texto y audio, de acuerdo con la descripción de Sesame en la plataforma AI Dev Hugging Face.
RVQ hace referencia a la «cuantización del vector residual», una técnica para codificar el audio en tokens discretos llamados códigos. RVQ se usa En varias tecnologías de audio de IA recientes incluidos Soundstream y Meta’s Codec de Google.
CSM-1B utiliza un modelo de la familia Llama de Meta como su columna vertebral combinada con un componente de «decodificador» de audio. Una variante ajustada de las capacidades CSM maya, dice Sesame.
«El modelo de código abierto aquí es un modelo de generación base», escribe Sesame en el repositorio de CSM-1B de Hugging Face y Github. “Es capaz de producir una variedad de voces, pero no se ha ajustado en ninguna voz específica […] El modelo tiene cierta capacidad para idiomas que no son el inglés debido a la contaminación de datos en las fuentes de capacitación, pero es probable que no funcione bien».
No está claro qué Sesame indique que datos usó para entrenar CSM-1B.
Vale la pena señalar que el modelo no tiene protecciones reales respecto a las voces. Sesame tiene unas premisas de y simplemente insta a los desarrolladores y usuarios a no usar el modelo para imitar la voz de una persona sin su consentimiento, crear contenido engañoso como noticias falsas o participar en actividades «dañinas» o «maliciosas».
Probado en Huggig Face, y clonando la propia voz emplea menos de un minuto para realizar un clon. A partir de ahí, es fácil generar un discurso sobre cualquier cosa, incluso en temas controvertidos como las elecciones y la propaganda rusa.
Consumer Reports advirtió recientemente que muchas herramientas populares de clonación de voz con IA en el mercado no tienen protecciones «significativas» para prevenir fraude o abuso.
Sesame, cofundado por el cocreador de Oculus, Brendan Iribe, se volvió viral a fines de febrero por su tecnología para asistentes. El otro asistente de Maya y Sesame, Miles, respira y habla con cambios en la fluidez de la conversacion, y pueden ser interrumpidos mientras hablan, al igual que el modo de voz de Openai.
Sesame ha aumentado una cantidad no revelada de capital de Andreessen Horowitz, Spark Capital y Matrix Partners. Además de construir tecnología de asistente de voz, la compañía dice que dispone de prototipos de gafas de IA «diseñadas para usarse todo el día» que estarán equipados con sus modelos personalizados.