A nuevo estudio Parece prestar crédito a las acusaciones de que Operai capacitó al menos algunos de sus modelos de IA en contenido con derechos de autor.
Operai está envuelto en trajes traídos por autores, programadores y otros titulares de derechos que acusan a la compañía de usar sus obras (libros, bases de código, etc.) para desarrollar sus modelos sin permiso. Operai ha reclamado durante mucho tiempo un uso justo Defensa, pero los demandantes en estos casos argumentan que no hay una falla en la ley de derechos de autor de los Estados Unidos para los datos de capacitación.
El estudio, que fue coautor de investigadores de la Universidad de Washington, la Universidad de Copenhague y Stanford, propone un nuevo método para identificar datos de capacitación “memorizados” por modelos detrás de una API, como OpenAi's.
Los modelos son motores de predicción. Entrenados en muchos datos, aprenden patrones, así es como pueden generar ensayos, fotos y más. La mayoría de las salidas no son copias literales de los datos de capacitación, sino que debido a la forma en que los modelos “aprenden”, algunos inevitablemente lo son. Se han encontrado modelos de imagen regurgitar las capturas de pantalla de las películas en las que fueron entrenadosmientras se han observado modelos lingüísticos Plagiar eficazmente los artículos de noticias.
El método del estudio se basa en las palabras que los coautores llaman “alta expresa”, es decir, palabras que se destacan como poco comunes en el contexto de un cuerpo de trabajo más grande. Por ejemplo, la palabra “radar” en la oración “Jack y yo nos quedamos perfectamente quietas con el zumbido de radar” se consideraría de alta expresal porque es estadísticamente menos probable que las palabras como “motor” o “radio” que aparecen antes de “zumbar”.
Los coautores investigaron varios modelos Operai, incluidos GPT-4 y GPT-3.5, para obtener signos de memorización al eliminar las palabras de alta expresal de los fragmentos de libros de ficción y las piezas del New York Times y hacer que las modelos intenten “adivinar” qué palabras habían sido enmascaradas. Si los modelos lograron adivinar correctamente, es probable que memorizaran el fragmento durante el entrenamiento, concluyeron a los coautores.
Según los resultados de las pruebas, GPT-4 mostró signos de haber memorizado porciones de libros de ficción populares, incluidos libros en un conjunto de datos que contiene muestras de libros electrónicos con derechos de autor llamados Bookmia. Los resultados también sugirieron que el modelo memorizó porciones de los artículos del New York Times, aunque a una tasa relativamente más baja.
Abhilasha Ravichander, estudiante de doctorado de la Universidad de Washington y coautora del estudio, le dijo a Learnmaart que los hallazgos arrojan luz sobre los modelos de “datos contenciosos” podrían haber sido entrenados.
“Para tener modelos de idiomas grandes que sean confiables, necesitamos tener modelos que podamos sondear, auditar y examinar científicamente”, dijo Ravichander. “Nuestro trabajo tiene como objetivo proporcionar una herramienta para sondear modelos de idiomas grandes, pero existe una necesidad real de una mayor transparencia de datos en todo el ecosistema”.
OpenAI ha abogado durante mucho tiempo para las restricciones más flexibles en el desarrollo de modelos utilizando datos con derechos de autor. Si bien la compañía tiene ciertos acuerdos de licencia de contenido y ofrece mecanismos de exclusión que permiten a los propietarios de derechos de autor marcar el contenido que preferirían que la compañía no use para fines de capacitación, ha presionado a varios gobiernos para codificar las reglas de “uso justo” en torno a los enfoques de capacitación de la IA.