Openai, el jueves, introdujo nuevos modelos de audio en la interfaz de programación de aplicaciones (API) que ofrecen un rendimiento mejorado en precisión y confiabilidad. La firma de IA con sede en San Francisco lanzó tres nuevos modelos de inteligencia artificial (AI) tanto para las funciones de transcripción de voz a texto y de texto a voz (TTS). La compañía afirmó que estos modelos permitirán a los desarrolladores crear aplicaciones con flujos de trabajo de agente. También declaró que la API puede permitir a las empresas automatizar las operaciones de atención al cliente. En particular, los nuevos modelos se basan en los modelos Mini AI GPT-4O y GPT-4O de la compañía.
Operai trae nuevos modelos de audio en API
En blogla empresa de IA detalló los nuevos modelos de IA específicos de API. La compañía destacó que a lo largo de los años ha publicado varios agentes de IA, como el operador, la investigación profunda, los agentes que usan computadora y la API de respuestas con herramientas incorporadas. Sin embargo, agregó que el verdadero potencial de los agentes solo puede desbloquearse cuando pueden funcionar intuitivamente e interactuar a través de medios más allá del texto.
Hay tres nuevos modelos de audio. GPT-4O-Transcribe y GPT-4O-Mini-Transcribe son los modelos de voz a texto y el GPT-4O-Mini-TTS es, como su nombre, su nombre, un modelo TTS. Operai afirma que estos modelos superan a sus modelos Whisper existentes que se lanzaron en 2022. Sin embargo, a diferencia de los modelos más antiguos, los nuevos no son de código abierto.
Al llegar al GPT-4O-Transcribe, la firma de IA declaró que muestra el rendimiento mejorado de la “tasa de error de palabras” (WER) en la evaluación de aprendizaje de pocos disparos de las representaciones universales del habla (flores) de referencia que prueba los modelos de IA en el habla multilingüe en 100 idiomas. Operai dijo que las mejoras fueron el resultado de técnicas de capacitación específicas, como el aprendizaje de refuerzo (RL) y el entrenamiento intermedio extenso con conjuntos de datos de audio de alta calidad.
Estos modelos de voz a texto pueden capturar el audio incluso en escenarios desafiantes, como acentos pesados, entornos ruidosos y diferentes velocidades del habla.
El modelo GPT-4O-Mini-TTS también viene con mejoras significativas. La firma de IA afirma que los modelos pueden hablar con inflexiones personalizables, entonaciones y expresividad emocional. Esto permitirá a los desarrolladores crear aplicaciones que se puedan utilizar para una amplia gama de tareas, incluido el servicio al cliente y la narración creativa. En particular, el modelo solo ofrece voces artificiales y preestablecidas.
Precios API de OpenAI página destaca que el modelo de audio basado en GPT-4O costará $ 40 (aproximadamente Rs. 3,440) por millón de tokens de entrada y $ 80 (aproximadamente Rs. 6,880) por millón de tokens de salida. Por otro lado, los modelos de audio basados en MINI GPT-4O se cobrarán a una tasa de $ 10 (aproximadamente Rs. 860) por millón de tokens de entrada y $ 20 (aproximadamente Rs. 1,720) por millón de tokens de salida.
Todos los modelos de audio ahora están disponibles para los desarrolladores a través de API. Operai también está lanzando una integración con el Kit de desarrollo de software de sus agentes (SDK) para ayudar a los usuarios a construir agentes de voz.