Operai agregó la capacidad de generación de imágenes a su modelo existente de inteligencia artificial GPT-4O (AI) el martes. La firma de IA con sede en San Francisco lanzó el modelo 4O de generación de imágenes y lo integró en el GPT-4O. La compañía dijo que el enfoque de este generador de imágenes está en la utilidad en lugar de la decoración. Viene con representación de texto precisa, adherencia de alta inmediato, consistencia de los caracteres y ofrece capacidad de edición de imágenes a través de indicaciones de texto. OpenAi también ha tomado varios pasos para mitigar el riesgo de fallas profundas y la generación de contenido dañino.
CHATGPT obtiene la capacidad de generación de imágenes mejorada
Incluso antes de esta nueva incorporación, ChatGPT podría generar imágenes alimentadas por uno de los modelos Dall-E. Sin embargo, esta fue una experiencia básica de generación de imágenes donde la consistencia de los personajes y la generación de texto fueron sub-par. En blogla compañía explicó que ahora tiene la intención de agregar la función de generación de imágenes como una capacidad primaria de los modelos de lenguaje.
Imagen generada usando GPT-4O
Crédito de la foto: OpenAI
Esto significa que los modelos de idiomas grandes (LLM) de la compañía ahora podrán generar imágenes inherentemente y hacer ediciones a salidas generadas. Debido al gran tamaño de parámetros de estos modelos y los esfuerzos posteriores a la capacitación, estos modelos son adecuados para comprender el contexto detrás de las indicaciones del usuario que proporcionan exactamente lo que están buscando. Además, dado que estos son modelos de idiomas, pueden procesar mejor y representar el texto con precisión.
El nuevo generador de imágenes fue entrenado en la distribución conjunta de imágenes y texto en línea. Operai afirma que el modelo comprende cómo las imágenes se relacionan con el lenguaje y cómo las imágenes se relacionan con otras imágenes. Como resultado, ahora viene con una mejor consistencia de los personajes, y los usuarios pueden generar múltiples imágenes con el mismo carácter sin mucho de ida y vuelta.
Imágenes con texto generado usando GPT 4O
Crédito de la foto: Openai/Derya Unatmaz y Les Morgan
Además, también puede generar imágenes con un gran volumen de texto preciso. Esto significa que puede generar imágenes con precisión con letreros, menús de restaurantes y texto escrito en una pizarra. Los usuarios también pueden compartir una imagen como entrada, y el chatbot puede recrearla en diferentes estilos y hacer ediciones.
ChatGPT también ofrecerá una generación múltiple con el último generador de imágenes. Los usuarios podrán pedirle al chatbot Ai que realice cambios y adiciones a una imagen generada con indicaciones, y puede refinar la salida sin cambiar otros elementos. Operai afirmó que el modelo puede manejar hasta 10-20 objetos diferentes en una sola imagen y agregar estos elementos con precisión.
Imagen fotorrealista generada usando GPT-4O
Crédito de la foto: OpenAI
Estas características están actualmente disponibles para los suscriptores ChatGPT Plus, Team y Pro. Si bien también estaba disponible inicialmente para el nivel libre, el CEO de OpenAi, Sam Altman, declaró en un correo En X (anteriormente conocido como Twitter) que debido al alto volumen de solicitud, el despliegue al nivel libre se retrasa indefinidamente.
En particular, varios usuarios han recurrido a las plataformas de redes sociales para compartir recreaciones de estilo Ghibli de sus imágenes y memes populares generados con GPT-4O. Altman también cambió su foto de perfil en X a una interpretación de su imagen al estilo Gibli. Ghibli también estaba en tendencia a nivel mundial en la plataforma social.
Llegando a la seguridad, Openai está agregando información de Coalición para la Procedencia y la Autenticidad de Contenido (C2PA) en los metadatos de todas las imágenes generadas por IA para que puedan distinguirse fácilmente de las imágenes auténticas. La empresa de IA también ha creado una herramienta de búsqueda interna que puede verificar si el modelo de la compañía generó una imagen.
Además de esto, la compañía bloquea las solicitudes de imágenes que incluyen contenido dañino, como material de abuso sexual infantil y defectos sexuales. Además, cuando los usuarios están editando imágenes de personas reales, la compañía ha agregado restricciones al tipo de imágenes que se pueden crear.