El equipo Qwen de Alibaba lanzó un nuevo modelo de inteligencia artificial (AI) en la familia Qwen 2.5 el miércoles. Apodado Qwen 2.5 Omni, es un modelo multimodal de extremo a extremo de nivel insignia. La compañía afirma que puede procesar una amplia gama de entradas, incluidos texto, imágenes, audio y videos, al tiempo que genera texto en tiempo real y respuestas al habla natural. Se dice que habilita la construcción y el despliegue de agentes de IA rentables debido a su conjunto de habilidades diversas. Alibaba también ha empleado una nueva arquitectura de “pensador-talker” para el modelo omni ai Qwen 2.5.
QWEN 2.5 Modelo Omni AI lanzado
En blogEl equipo QWEN detalló el nuevo modelo Qwen 2.5 Omni AI, que es un sistema de siete mil millones de parámetros. La capacidad más notable de este modelo omnimodal es la generación de voz en tiempo real y la capacidad de chat de video, que permitirá que el modelo de lenguaje grande (LLM) responda consultas e interactúe con los usuarios de manera humana. Hasta ahora, esta capacidad solo está disponible con los modelos de Google y OpenAI, que son de código cerrado. Alibaba, por otro lado, ha recibido la tecnología.
Al llegar a las características, acepta texto, imágenes, audio y video como entrada y salida. El modelo también es capaz de interacciones de voz en tiempo real y chats de video. El equipo de Qwen también destaca que el modelo también ofrecerá transmisión de discurso en tiempo real de manera natural. Además, se afirma que viene con un rendimiento mejorado en la instrucción del habla de extremo a extremo.
El equipo de Qwen destacó que el modelo OMNI se basa en una novedosa arquitectura “Thinker-Talker”. El componente Thinker funciona como un cerebro y es responsable de procesar y comprender la entrada a través de las modalidades y generar la salida de texto. Es esencialmente un decodificador de transformadores que codifica audio e imagen y ayuda con la extracción de información.
Qwen 2.5 Omni Benchmark
Crédito de la foto: Alibaba
Por otro lado, el componente de Talker opera como una boca humana, dijeron los investigadores. Transmita la información producida por el componente Thinker y genera una salida similar a la fluidez del habla. Está diseñado como un decodificador de transformador autorregresivo de doble vía. Toda esta arquitectura funciona como un modelo único, lo que permite el texto en tiempo real y la generación de voz, lo que permite la capacitación e inferencia de extremo a extremo.
Según las pruebas internas, se dice que el modelo OMNI AI QWEN 2.5 supera al modelo Gemini 1.5 Pro en el Omnibench. También supera a QWEN 2.5-VL-7B, QWEN2-Audio en tareas de modalidad única.
El modelo de IA ahora está disponible en la cara abrazada de Alibaba listado y Github listado. Además, los usuarios pueden probar el nuevo modelo a través del chat Qwen, así como la comunidad de modelos comunitarios de la compañía.