Los investigadores de Microsoft anunciaron un nuevo modelo de base el miércoles que puede realizar funciones de agente. Apodado Magma, el modelo de inteligencia artificial (AI) está previamente capacitada en un gran volumen de conjuntos de datos a través de texto, imágenes, videos y formatos espaciales. El gigante tecnológico con sede en Redmond dijo que Magma es una extensión de los modelos en idioma de visión (VL) y que no solo puede comprender la información multimodal, sino que también puede planificar y actuar sobre ellos. El modelo habilitado para agentes AI se puede utilizar en una amplia gama de tareas, incluida la visión por computadora, la navegación de la interfaz de usuario (UI) y la manipulación de robots.
Microsoft anuncia el modelo de la Fundación Magma
En una publicación de Github, los investigadores de Microsoft detallaron el nuevo modelo de Magma Foundation. Los modelos de base son modelos de lenguaje grande (LLM) distintivos, que se construyen desde cero y no se destilan de ningún otro modelo. A menudo se convierten en la línea de base para otros modelos de la serie. Magma es único en el sentido de que el modelo AI está pretrontrado en una amplia gama de conjuntos de datos.
Los investigadores declararon que la arquitectura base detrás de Magma es el modelo LLAMA 3 AI. Sin embargo, el magma también está equipado con la capacidad de planificar y actuar en el mundo visual espacial. Esto permite que el modelo no solo genere salidas como un chatbot sino que también ejecute acciones.
Se puede usar como un chatbot de visión por computadora que puede ofrecer información sobre el mundo que ve cuando se combina con sensores de cámara. El magma también se puede usar para controlar la interfaz de usuario de un dispositivo. Pero lo más interesante, también puede controlar los robots para completar tareas complejas utilizando capacidades de agente.
Los investigadores dijeron que una razón importante detrás de estas capacidades es el diverso conjunto de datos junto con dos componentes técnicos: establecidos y traza de marca. El primero permite a la base de la acción de la acción en imágenes, videos y datos espaciales al hacer que el modelo predice marcas numéricas para botones o brazos de robot en el espacio de imágenes. Este último alimenta la dinámica de video temporal modelo y hace que predice los próximos cuadros antes de que tome medidas. Esto permite que el modelo desarrolle una fuerte comprensión espacial.
Los investigadores de Microsoft también compartieron los puntajes de referencia del modelo AI basado en pruebas internas. Ha logrado puntajes competitivos en todas las pruebas de evaluación de agente, superando los modelos de OpenAI, Alibaba y Google. La compañía no ha publicado magma en el dominio público a partir de ahora.