El equipo Qwen de Alibaba lanzó otro modelo de inteligencia artificial (IA) a la familia Qwen 2.5 el lunes. Apodado instrucciones QWEN 2.5-VL-32B, el modelo AI viene con un rendimiento y optimizaciones mejoradas. Es un modelo de lenguaje de visión con 32 mil millones de parámetros, y se une a los modelos de tamaño de parámetros de tres mil millones, siete mil millones y 72 mil millones en la familia Qwen 2.5. Al igual que todos los modelos anteriores del equipo, también es un modelo de IA de código abierto disponible bajo una licencia permisiva.
Alibaba libera el modelo QWEN 2.5-VL-32B AI
En blogEl equipo QWEN detalló el último modelo de lenguaje de visión de la compañía (VLM). Es más capaz que los modelos QWEN 2.5 3B y 7B, y más pequeño que el modelo Foundation 72B. Las versiones más antiguas del modelo de lenguaje grande (LLM) superaron a Deepseek-V3, y se dice que el modelo 32B está superando a los sistemas de tamaño similar de Google y Mistral.
Al llegar a sus características, el instructo QWEN 2.5-VL-32B tiene un estilo de salida ajustado que proporciona respuestas más detalladas y mejor formatadas. Los investigadores afirmaron que las respuestas están estrechamente alineadas con las preferencias humanas. La capacidad de razonamiento matemático también se ha mejorado, y el modelo de IA puede resolver problemas más complejos.
También se ha mejorado la precisión de la capacidad de comprensión de la imagen y el análisis centrado en el razonamiento, incluido el análisis de imágenes, el reconocimiento de contenido y la deducción de lógica visual.
QWEN 2.5-VL-32B-INSTRUST
Crédito de la foto: Qwen
Según las pruebas internas, se afirma que el QWEN 2.5-VL-32B ha superado las capacidades de los modelos comparables, como Mistral-Small-3.1-24b y Gemma-3-27B de Google, en los cepillos MMMU, MMMU-Pro y Mathvista. Curiosamente, también se afirmó que el LLM ha superado al modelo QWEN 2-VL-72B mucho más grande en el banco MM-MT.
El equipo QWEN destaca que el último modelo puede jugar directamente como un agente visual que puede razonar y dirigir herramientas. Es inherentemente capaz de uso de la computadora y uso telefónico. Acepta texto, imágenes y videos con más de una hora de duración como entrada. También es compatible con JSON y salidas estructuradas.
La arquitectura y la capacitación de línea de base siguen siendo los mismos que los modelos QWEN 2.5 más antiguos, sin embargo, los investigadores implementaron un muestreo dinámico de FPS para permitir que el modelo comprenda videos a diferentes tasas de muestreo. Otra mejora también le permite identificar momentos específicos en un video al obtener una comprensión de la secuencia temporal y la velocidad.
QWEN 2.5-VL-32B-Instructo está disponible para descargar en GitHub y su cara de abrazo listado. El modelo viene con la licencia Apache 2.0, que permite el uso académico y comercial.