El equipo QWEN de Alibaba, una división encargada de desarrollar modelos de inteligencia artificial (IA), lanzó el modelo QWQ-32B AI el miércoles. Es un modelo de razonamiento basado en el horario de prueba extendido con la cadena de pensamiento visible (COT). Los desarrolladores afirman que a pesar de ser de menor tamaño en comparación con Deepseek-R1, el modelo puede igualar su rendimiento en función de las puntuaciones de referencia. Al igual que otros modelos de IA lanzados por el equipo QWEN, el QWQ-32B también es un modelo de IA de código abierto, sin embargo, no es completamente de código abierto.
QWQ-32B razonamiento AI Modelo lanzado
En blogEl equipo QWEN de Alibaba detalló el modelo de razonamiento QWQ-32B. La compañía de la serie QWQ (abreviatura de Qwen con preguntas) fue introducido por primera vez por la compañía en noviembre de 2024. Estos modelos de razonamiento fueron diseñados para ofrecer una alternativa de código abierto para la serie O1 de OpenAI. El QWQ-32B es un modelo de parámetros de 32 mil millones desarrollado por técnicas de aprendizaje de refuerzo de escala (RL).
Al explicar el proceso de capacitación, los desarrolladores dijeron que el enfoque de escala RL se agregó a un punto de control de inicio de frío. Inicialmente, RL se usó solo para la codificación y las tareas relacionadas con las matemáticas, y las respuestas se verificaron para garantizar la precisión. Más tarde, la técnica se utilizó para capacidades generales junto con los verificadores basados en reglas. El equipo de Qwen descubrió que este método aumentó las capacidades generales del modelo sin reducir su rendimiento de matemáticas y codificación.
Puntos de referencia del modelo AI QWQ-32B
Crédito de la foto: Alibaba
Los desarrolladores afirman que estas estructuras de entrenamiento permitieron que el QWQ-32B se desempeñara en niveles similares al Deepseek-R1 a pesar de que este último es un modelo de 671 mil millones de parámetros (con 37 mil millones activados). Basado en las pruebas internas, el equipo afirmó que QWQ-32B supera a Deepseek-R1 en el LiveBench (codificación), Ifeval (chat o instrucciones de lenguaje ajustado bien) y la función de Berkeley llamando a la tabla de clasificación V3 o BFCL (capacidad para llamar a las funciones) de comparación.
Los desarrolladores y los entusiastas de la IA pueden encontrar los pesos abiertos del modelo en abrazar el listado de caras y Modelscope. El modelo está disponible bajo la licencia Apache 2.0 que permite el uso académico y relacionado con la investigación, pero prohíbe los casos de uso comercial. Además, dado que los detalles de capacitación y los conjuntos de datos completos no están disponibles, el modelo tampoco es replicable o puede deconstruir. Deepseek-R1 también estaba disponible bajo la misma licencia.
En caso de que uno carezca del hardware correcto para ejecutar el modelo AI localmente, también puede acceder a sus capacidades a través del chat Qwen. El menú de selección de modelos en la parte superior izquierda de la página permitirá a los usuarios seleccionar el modelo QWQ-32B-Preview.