Anthrope lanzó una versión mejorada de su modelo Claude 3.5 Sonnet Artificial Intelligence (AI) el lunes. Apodado el soneto Claude 3.7, se está poniendo a disposición de todos los usuarios de Claude. La firma de IA describió 3.7 Sonnet como su modelo más inteligente capaz de razonamiento avanzado. El enfoque principal del nuevo modelo de lenguaje grande (LLM) es la codificación, y para apoyar la capacidad, la compañía también introdujo el código Claude, la primera herramienta de codificación de agente de Anthrope que puede manejar una gran variedad de tareas de codificación de backend.
Antropic lanza un nuevo modelo de IA y su primer agente de IA
En una publicación de redacción, la compañía anunció el lanzamiento del modelo Claude 3.7 Sonnet. Es el primer modelo de IA híbrido por parte de la compañía y puede realizar tanto como un modelo de lenguaje estándar como como un modelo de razonamiento. Los modelos de razonamiento generalmente utilizan funciones de cómputo de tiempo de prueba para aumentar el tiempo dedicado a una consulta. Durante este tiempo, dura el resultado, busca soluciones alternativas y verifica la información.
Con el soneto Claude 3.7, los usuarios pueden utilizar el mismo modelo AI para obtener funciones estándar y de razonamiento. Al explicar la razón detrás de optar por un modelo híbrido, Anthrope dijo: “Creemos que el razonamiento debería ser una capacidad integrada de los modelos fronterizos en lugar de un modelo separado por completo”.
Los miembros del personal de Gadgets 360 pudieron acceder al modelo AI en el nivel libre, y las respuestas parecen ser más sofisticadas en comparación con el modelo de soneto anterior. Sin embargo, las mejoras fueron marginales, lo cual es típicamente el caso con la mayoría de los modelos de IA iterativos.
Los usuarios ahora pueden acceder a un nuevo modo de pensamiento en el menú de selección de modelos de Claude, y seleccionar entre lo normal y extendido. Si bien el modo normal producirá respuestas cercanas, el modo extendido activará las respuestas basadas en el razonamiento. En particular, el modo extendido solo solo está disponible para los suscriptores Pro.
Anthrope dijo que los desarrolladores que acceden al modelo a través de la interfaz de programación de aplicaciones (API) podrán controlar el tiempo que el modelo piensa antes de producir una salida. Esto se puede controlar determinando un valor de token específico para Claude. Este número puede llegar hasta 1,28,000 tokens, que es el techo superior para este modelo. La firma de IA destacó que este control granular permitirá a los desarrolladores construir productos más enfocados.
Al llegar al rendimiento, el soneto Claude 3.7 obtuvo un 62.3 por ciento en el punto de referencia verificado SWE-Bench, superando el soneto 3.5 y el O1 de OpenAI, según las pruebas internas de la compañía. También supera a O1 en el punto de referencia TAU-Bench para el uso de la herramienta de agente.
Además, la firma de IA también introdujo el código Claude, su primera herramienta de codificación de agente en una vista previa de investigación limitada. Puede realizar una amplia gama de tareas de codificación que incluyen código de búsqueda y lectura, edición de archivos, escritura y ejecución de pruebas, comprometer y empujar el código a GitHub, y usar herramientas de línea de comandos.
En las pruebas internas de Anthrope, la herramienta de agente pudo completar tareas complejas que más de 45 minutos de trabajo manual en un solo intento. Las personas interesadas pueden acceder a la vista previa aquí. La firma de IA destacó que la herramienta se está utilizando ampliamente internamente.