Spanish English Eesti French German Italian Portuguese
Marketing Social
IniciogenAIAudioElevenLabs está lanzando su modelo de voz a texto

ElevenLabs está lanzando su modelo de voz a texto

ElevenLabs, una startup de IA que acaba de recaudar una ronda de fondos de $180 millones, es conocida principalmente por sus capacidades de generación de audio. La compañía dio un paso en otra dirección tecnológica al lanzar su primer modelo independiente de voz a texto llamado Scribe.

La startup, valorada en $3.3 mil millones, ha ayudado a muchas otras compañías a proporcionar servicios de voz a texto a través de su vasta biblioteca de voces. Sin embargo, la compañía ahora está buscando entrar en la detección del habla y competir con otros en este ámbito como Gladia, Speechmatics, AssembyAI, Deepgram y Whisper Models de OpenAI.

El modelo Scribe de ElevenLabs admite más de 99 idiomas en el lanzamiento. La compañía clasifica más de 25 idiomas con una excelente precisión para un modelo donde la tasa de error por palabra es inferior al 5%. Esta lista incluye inglés (tasa de precisión del 97%), francés, alemán, hindi, indonesio, japonés, kannada, malayalam, polaco, portugués, español y vietnamita. Otros idiomas los clasifican internamente en diferentes categorías de precisión o error desde alta (tasa de error de 5-10%), buenas (tasa de error de 10 a 20%) y tasas de error moderadas (25 a 50%).

La compañía dijo que el modelo superó a Google Gemini 2.0 Flash y Whisper Large V3 en múltiples idiomas en FLEURS y Common Voice.

ElevenLabs había desarrollado el componente de voz a texto para su plataforma de agente de conversación de IA, que lanzó el año pasado. Sin embargo, esta es la primera vez que lanza un modelo independiente de detección de voz

“Queremos entender mejor lo que se dice en una conversación. Estamos trabajando en formas de alejarnos de tan solo de generar contenido y comprensión y transcribir el discurso ”, dijo Staniszewski en ese momento. “Muchas personas dicen que el habla a texto es un problema resuelto. Pero para muchos idiomas, es bastante deficiente. Creemos que podemos construir mejores modelos de detección de voz porque tenemos equipos internos para anotar datos y darnos respuesta rápidamente».

El modelo también tiene una diariazación (proceso de identificar y separar las voces de los diferentes hablantes en una grabación de audio o en un flujo de video) para identificar quién está hablando, marcas en tiempo a nivel de palabras para subtítulos precisos y eventos de sonido automáticos como risas de audiencia. El inicio está proporcionando una forma para que los clientes transcriban directamente contenido de video para agregar subtítulos.

Scribe actualmente solo funciona con formatos de audio pregrabados. La compañía dijo que lanzará pronto una versión en tiempo real de baja latencia del modelo. Eso significa que aún no es suficientemente efectivo para tratar con transcripciones o la toma de notas de voz.

ElevenLabs ha fijado el precio de Scribe a $0.40 por una hora de audio transcrito. Si bien la tasa es competitiva, algunos de sus rivales ofrecen un precio menor para transcripciones de audio en este momento con alguna diferenciación en sus características.

 



Source link

RELACIONADOS

SUSCRÍBETE A TRPLANE.COM

Publica en TRPlane.com

Si tienes alguna historia interesante sobre transformación, IT, digital, etc con cabida en TRPlane.com por favor envíanosla y la compartiremos con toda la Comunidad

MÁS PUBLICACIONES

Activar Notificaciones OK No gracias