Cohere for AI, la división de investigación abierta de la firma, lanzó los nuevos modelos de visión de última generación (SOTA) el martes. Dobado Aya Vision, los modelos de inteligencia artificial (AI) están disponibles en dos tamaños de parámetros. Los últimos modelos fronterizos de la compañía abordan el rendimiento inconsistente de los modelos de idiomas grandes existentes (LLM) en diferentes idiomas, especialmente para tareas multimodales. Los modelos AYA Vision pueden generar salidas en 23 idiomas y pueden realizar tareas basadas en texto y basadas en imágenes. Sin embargo, no puede generar imágenes. Cohere ha puesto a disposición los modelos AI en repositorios de código abierto, así como a través de WhatsApp.
Cohere se libera modelos AYA Vision AI
En blogla empresa de IA detalló los nuevos modelos de visión. AYA Vision está disponible en tamaños de parámetros 8B y 32B. Estos modelos pueden generar texto, traducir texto e imágenes a través de 23 idiomas, analizar imágenes y consultas de respuesta sobre ellos, así como imágenes de subtítulos. Se puede acceder a ambos modelos a través de la cara abrazada de Cohere página y en Kaggle.
Además, los usuarios generales pueden probar los modelos de Cohere a través de un chat dedicado de WhatsApp cuenta se puede acceder aquí. La compañía dice que los modelos AYA Vision son útiles para los casos en que las personas se encuentran con imágenes o obras de arte sobre las que les gustaría aprender más.
Basado en las pruebas internas de la compañía, el modelo AYA Vision 8B supera a QWEN2.5-VL 7B, Gemini Flash 1.5 8B y Modelos LLAMA 3.2 11B Vision en los puntos de vista AyavisionBench y M-WildVision. En particular, Cohere también desarrolló el punto de referencia AyavisionBench, y sus detalles se han compartido en el dominio público.
Al llegar al modelo AYA Vision 32B, la compañía afirmó que superó a LLAMA 3.2 90B Vision y los modelos QWEN2-VL 72B en los mismos puntos de referencia.
Para lograr el rendimiento fronterizo, Cohere afirmó que se desarrollaron varias innovaciones algorítmicas. Los modelos de visión AYA fueron alimentados con anotaciones sintéticas, los desarrolladores ampliaron los datos multilingües a través de la traducción y la reformulación, y se fusionaron múltiples modelos multimodales en pasos separados. Los desarrolladores observaron que en cada paso, el rendimiento mejoró significativamente.
En particular, los desarrolladores pueden acceder a los pesos abiertos de los modelos AYA Vision de Kaggle y abrazando la cara, sin embargo, estos modelos están disponibles con una licencia Creative Commons Attribution Non Commercial 4.0. Permite el uso académico y basado en la investigación, pero prohíbe los casos de uso comercial.
Para obtener detalles de los últimos lanzamientos y noticias de Samsung, Xiaomi, Realme, OnePlus, Oppo y otras compañías en el Mobile World Congress en Barcelona, visite nuestro centro MWC 2025.