OpenAi ha sido acusado por muchos Partes de capacitar a su IA sobre contenido con derechos de autor sin permiso. Ahora un nuevo papel Según una organización Watchdog AI, hace una seria acusación de que la compañía dependía cada vez más de los libros no públicos que no se licenció para capacitar a modelos de IA más sofisticados.
Los modelos de IA son motores de predicción esencialmente complejos. Entrenados en muchos datos (libros, películas, programas de televisión, etc., aprenden patrones y formas novedosas de extrapolar de un mensaje simple. Cuando un modelo “escribe” un ensayo sobre una tragedia griega o “dibuja” imágenes de estilo Gibli, simplemente está extrayendo de su vasto conocimiento a aproximarse. No está llegando a nada nuevo.
Si bien varios laboratorios de IA, incluido OpenAI, han comenzado a adoptar datos generados por IA para entrenar a la IA a medida que agotan las fuentes del mundo real (principalmente la web pública), pocos han evitado los datos del mundo real por completo. Eso es probable porque el entrenamiento en datos puramente sintéticos viene con riesgos, como empeorar el rendimiento de un modelo.
El nuevo artículo, del proyecto de divulgaciones de IA, una organización sin fines de lucro cofundada en 2024 por el magnate de los medios Tim O'Reilly y el economista Ilan Strauss, llega a la conclusión de que Operai probablemente capacitó a su modelo GPT-4O en libros de O'Reilly de O'Reilly. (O'Reilly es el CEO de O'Reilly Media).
En ChatGPT, GPT-4O es el modelo predeterminado. O'Reilly no tiene un acuerdo de licencia con Openai, dice el periódico.
“GPT-4O, el modelo más reciente y capaz de Openai, demuestra un fuerte reconocimiento del contenido de libros O'Reilly de Paywalled … en comparación con el modelo anterior GPT-3.5 Turbo de OpenAI”, escribió los coautores del artículo. “En contraste, GPT-3.5 Turbo muestra un mayor reconocimiento relativo de muestras de libros O'Reilly accesibles públicamente”.
El documento utilizó un método llamado Desanimarintroducido por primera vez en un artículo académico en 2024, diseñado para detectar contenido con derechos de autor en los datos de capacitación de modelos de idiomas. También conocido como un “ataque de inferencia de membresía”, el método prueba si un modelo puede distinguir de manera confiable textos autorizados por los humanos de versiones parafraseadas de IA del mismo texto. Si puede, sugiere que el modelo podría tener un conocimiento previo del texto de sus datos de capacitación.
Los coautores del periódico-O'Reilly, Strauss y el investigador de IA Sruly Rosenblat-dicen que sondearon el conocimiento de GPT-4O, GPT-3.5 Turbo y otros modelos Operai de los libros de medios O'Reilly publicados antes y después de sus fechas de corte de capacitación. Usaron 13,962 extractos de párrafo de 34 libros de O'Reilly para estimar la probabilidad de que se haya incluido un extracto particular en el conjunto de datos de entrenamiento de un modelo.
Según los resultados del documento, GPT-4O “reconoció” mucho más contenido de libros de O'Reilly que los modelos más antiguos de Openai, incluido GPT-3.5 Turbo. Eso es incluso después de tener en cuenta los posibles factores de confusión, dijeron los autores, como las mejoras en la capacidad de los modelos más nuevos para descubrir si el texto era autorizado por los humanos.
“GPT-4O [likely] Reconoce, y también el conocimiento previo de muchos libros no públicos de O'Reilly publicados antes de su fecha de corte de capacitación ”, escribieron los coautores.
No es una pistola humeante, los coautores tienen cuidado de tener en cuenta. Reconocen que su método experimental no es infalible y que OpenAi podría haber recopilado los extractos de libros con paredes de pago de los usuarios que lo copian y lo pegarán en ChatGPT.
En el consumo de las aguas, los coautores no evaluaron la colección de modelos más reciente de OpenAi, que incluye modelos GPT-4.5 y “razonamiento” como O3-Mini y O1. Es posible que estos modelos no estuvieran entrenados en los datos del libro de O'Reilly de Paywalled o que hayan sido capacitados en una cantidad menor que GPT-4O.
Dicho esto, no es ningún secreto que OpenAi, que ha abogado por las restricciones más flexibles en torno a los modelos en desarrollo utilizando datos con derechos de autor, ha estado buscando datos de capacitación de mayor calidad durante algún tiempo. La compañía ha ido tan lejos como Contrata periodistas para ayudar a ajustar las salidas de sus modelos. Esa es una tendencia en toda la industria en general: compañías de IA que reclutan expertos en dominios como la ciencia y la física para Hacer que estos expertos efectivamente alimenten sus conocimientos en los sistemas de IA.
Cabe señalar que Openai paga al menos algunos de sus datos de capacitación. La compañía cuenta con acuerdos de licencia con editores de noticias, redes sociales, bibliotecas de medios de acción y otros. Operai también ofrece mecanismos de exclusión aunque imperfectos – que permiten a los propietarios de derechos de autor marcar el contenido que preferirían que la empresa no use para fines de capacitación.
Aún así, mientras Openai lucha contra varias demandas por sus prácticas de datos de capacitación y el tratamiento de la ley de derechos de autor en los tribunales de los Estados Unidos, el artículo de O'Reilly no es el aspecto más halagador.
Operai no respondió a una solicitud de comentarios.