La plataforma de grabación y edición de podcast Podcastle ahora se une a otras compañías en la carrera de texto a voz que funciona con IA al lanzar su propio modelo de IA llamado Asyncflow v1.0. También estará disponible una API para desarrolladores, lo que les permitirá integrar directamente el modelo de texto a voz en sus aplicaciones.
Gracias al nuevo modelo, la compañía puede ofrecer más de 450 voces de IA que pueden narrar su texto. La startup dijo que desarrolló la tecnología y el modelo de tal manera que sus costos de capacitación e inferencia son bajos, lo que le da una ventaja contra los competidores.
Con el movimiento, Podcastle se une a una serie de startups, incluidas Elevenlabs, Speechify y Wellsaid, que han desarrollado tecnología y modelos de IA para convertir cualquier tipo de texto en un clip de voz narrado por AI. Esta tecnología abarca casos de uso como marketing, publicidad, creación de contenido, educación y capacitación corporativa.
El fundador de Podcastle, Arto Yeritsyan, le dijo a Learnmaart que la compañía siempre había querido construir un modelo de texto a voz, pero el costo de la capacitación y los requisitos de datos para eso eran muy altos.
“Queríamos construir un modelo robusto de texto a voz desde nuestro inicio. Sin embargo, los costos de desarrollo fueron muy altos. Gracias a los recientes desarrollos de modelos de idiomas grandes, pudimos llegar a un avance el año pasado para llegar a un lugar donde pudiéramos construir un modelo de voz de alta calidad sin necesidad de una tonelada de datos ”, dijo Yeritsyan.
La compañía también fue ayudada en sus esfuerzos por su recaudación de fondos de la serie A de $ 13.5 millones el año pasado.
Yeritsyan dijo que, si bien Podcastle cobra alrededor de $ 40 por 500 minutos de conversión de texto a voz, Elevenlabs cobra $ 99 por lo mismo.
La función de clonación de voz de Podcastle también obtiene una actualización para crear un proceso más rápido para la capacitación.
Anteriormente, el proceso de capacitación implicaba leer aproximadamente 70 oraciones diferentes. Ahora, solo necesita unos segundos de grabación de usted para crear un clon de su voz. El nuevo proceso también utilizó la IA Magic Dust de Podcastle, que se lanzó el año pasado, para mejorar la calidad de la grabación de audio.
En nuestras pruebas, la voz creada con el nuevo proceso sonaba un poco robótico, aunque imitaba nuestro tono. La compañía dijo que, con el tiempo, mejorará la característica. Además, puede entrenar diferentes muestras de su voz para obtener diferentes resultados.
Podcastle dijo que, aparte de los costos, tener herramientas para audio, video, podcasts y narración con IA en un sitio rediseñado le dará una ventaja sobre los competidores. Yeritsyan dijo que si bien la mayoría de los usuarios usan Podcastle para trabajar en contenido de audio, el video también lo está poniendo al día.