Los investigadores antrópicos compartieron dos artículos nuevos el jueves, compartiendo la metodología y los hallazgos sobre cómo piensa un modelo de inteligencia artificial (IA). La firma de IA con sede en San Francisco desarrolló técnicas para monitorear el proceso de toma de decisiones de un modelo de lenguaje grande (LLM) para comprender qué motiva una respuesta y estructura particular sobre otra. La compañía destacó que esta área particular de modelos de IA sigue siendo una caja negra, ya que incluso los científicos que desarrollan los modelos no entienden completamente cómo una IA hace conexiones conceptuales y lógicas para generar salidas.
La investigación antrópica arroja luz sobre cómo piensa una IA
En una sala de redacción correola compañía publicó detalles de un estudio realizado recientemente sobre “rastrear los pensamientos de un modelo de lenguaje grande”. A pesar de la creación de chatbots y modelos de IA, los científicos y desarrolladores no controlan el circuito eléctrico que un sistema crea para producir una salida.
Para resolver esta “caja negra”, los investigadores antrópicos publicaron dos artículos. El primero Investiga los mecanismos internos utilizados por Claude 3.5 Haiku utilizando una metodología de rastreo de circuitos y el segundo papel se trata de las técnicas utilizadas para revelar gráficos computacionales en modelos de lenguaje.
Algunas de las preguntas que los investigadores tenían como objetivo encontrar respuestas incluían el lenguaje de “pensamiento” de Claude, el método de generar texto y su patrón de razonamiento. Anthrope dijo: “Saber cómo los modelos como Claude piensan que nos permitirían comprender mejor sus habilidades, así como ayudarnos a asegurarnos de que están haciendo lo que les pretendemos”.
Según las ideas compartidas en el documento, las respuestas a las preguntas mencionadas fueron sorprendentes. Los investigadores creían que Claude tendría preferencia por un lenguaje particular en el que piense antes de responder. Sin embargo, descubrieron que el chatbot Ai piensa en un “espacio conceptual que se comparte entre idiomas”. Esto significa que su pensamiento no está influenciado por un lenguaje particular, y puede comprender y procesar conceptos en una especie de lenguaje universal de pensamiento.
Mientras Claude está entrenado para escribir una palabra a la vez, los investigadores descubrieron que el modelo de IA planea su respuesta muchas palabras por delante y puede ajustar su salida para llegar a ese destino. Los investigadores encontraron evidencia de este patrón mientras lo llevaban a la IA a escribir un poema y notar que Claude primero decidió las palabras que riman y luego formaron el resto de las líneas para dar sentido a esas palabras.
La investigación también afirmó que, en ocasiones, Claude también puede invertir argumentos lógicos que suenan lógicos para estar de acuerdo con el usuario en lugar de seguir pasos lógicos. Esta “alucinación” intencional ocurre cuando se hace una pregunta increíblemente difícil. Anthrope dijo que sus herramientas pueden ser útiles para marcar los mecanismos en los modelos de IA, ya que puede identificar cuándo un chatbot proporciona un razonamiento falso en sus respuestas.
Anthrope destacó que existen limitaciones en esta metodología. En este estudio, solo se dieron indicaciones de decenas de palabras, y aún así, tomó unas pocas horas de esfuerzo humano identificar y comprender los circuitos. En comparación con las capacidades de LLMS, el esfuerzo de investigación solo capturó una fracción del cálculo total realizado por Claude. En el futuro, la firma de IA planea usar modelos AI para dar sentido a los datos.