Nvidia lanzó un nuevo modelo de inteligencia artificial (AI) la semana pasada que se puede usar para entrenar robots en la simulación. Apodado Cosmos-Transfer 1, el modelo de lenguaje grande de la nueva generación mundial (LLM) está dirigido al hardware de robótica con IA, también conocido como IA física. La compañía ha lanzado el modelo en código abierto con una licencia permisiva, y las personas interesadas pueden descargarlo de repositorios en línea populares. El gigante tecnológico con sede en Santa Clara destacó que la principal ventaja del último modelo de IA es que los usuarios tendrán un control granular sobre las simulaciones generadas.

Nvidia libera el modelo de IA para entrenar robots

La capacitación en robótica basada en simulación ha ganado viento en los últimos tiempos debido al avance en la tecnología generativa de IA. Esta rama específica de robótica trata con hardware que usa una IA para su cerebro. Esencialmente, el método de entrenamiento entrena el cerebro de la máquina en varios escenarios del mundo real para que pueda manejar una gama más amplia de tareas. Esta es una gran mejora en comparación con los robots actuales en las fábricas que están diseñadas para completar una sola tarea.

Cosmos-Transfer1 de NVIDIA es parte de los modelos de la Fundación Mundial Cosmos Transfer de la Compañía (WFM) que ingieren entrada de video estructurada, como mapas de segmentación, mapas de profundidad, escaneos LiDAR y más para generar salidas de video fotorreales. Estas salidas se pueden usar como terreno de simulación para entrenar la IA física.

En papel Publicado en la revista ARXIV, la compañía declaró que este modelo ofrece una mayor personalización que sus predecesores. Permite variar el peso de diferentes entradas condicionales basadas en la ubicación espacial. Esencialmente, esto permitirá a los desarrolladores generar una generación mundial altamente controlable. Otra ventaja del modelo incluye la generación mundial en tiempo real que es útil en sesiones de capacitación más rápidas y más diversas.

Al llegar a los detalles del modelo, el Cosmos-Transfer1 es un modelo basado en difusión con siete mil millones de parámetros. Está diseñado para la renovación de video en el espacio latente, y puede ser modulado por una rama de control. El modelo acepta texto y video como entrada, y utilizando ambos, puede generar un video de salida fotorrealista. El modelo admite cuatro tipos de videos de entrada de control que incluyen carro canny, RGB borrosa, máscara de segmentación y mapa de profundidad.

El modelo AI se ha probado en los conjuntos de chips Blackwell and Hopper de NVIDIA, y la inferencia se ejecutó en el sistema operativo Linux. El gigante tecnológico ha puesto a disposición el modelo AI con el acuerdo de licencia de modelo Open Nvidia que permite el uso académico y comercial.

El modelo Cosmos-Transfer1 Ai de Nvidia se puede descargar desde el GitHub de la compañía listado Y abrazando la cara listado. Se espera que otro modelo de IA con 14 mil millones de parámetros se lance pronto.