Desde 1984 a Moby Dick o Frankenstein: esto son los libros que se han usado para entrenar a ChatGPT

Los cerebritos de la Universidad de California en Berkeley se han adentrado en las profundidades no reveladas de ChatGPT y el modelo de lenguaje GPT-4, y han descubierto que OpenAI ha entrenado su herramienta con libros protegidos por derechos de autor . Y parece que tiene una extraña afición por la fantasía adolescente, y por la ciencia ficción, por supuesto. Los académicos Kent Chang, Mackenzie Cramer, Sandeep Soni y David Bamman describen su trabajo en un artículo titulado «Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4» . «Descubrimos que los modelos de OpenAI han memorizado una amplia colección de materiales protegidos por derechos de autor, y que el grado de memorización está ligado a la frecuencia con la que aparecen pasajes de esos libros en la web», explican los investigadores en su artículo. Entre los títulos, se ha descubierto que ChatGPT ha memorizado títulos como la saga de fantasía de Harry Potter, 1984 de Orwell, la trilogía de El Señor de los Anillos, los libros de Los Juegos del Hambre, Guía del Autoestopista Galáctico, Moby Dick, Frankenstein, Juego de Tronos y Dune, entre otros. Noticia Relacionada estandar No Un abogado confió en ChatGPT para preparar un juicio: ahora está en peligro de ser sancionado por los errores de la IA R. Alonso El jurista presentó media docena de precedentes falsos generados por el sistema de inteligencia artificial para apoyarse en un caso Los autores señalan que los libros de ciencia ficción y fantasía dominan la lista, lo que atribuyen a la popularidad de esos títulos en la red. Y señalan que memorizar títulos específicos tiene efectos derivados . Por ejemplo, estos modelos hacen predicciones más precisas en respuesta a preguntas como «¿En qué año se publicó este pasaje?» cuando han memorizado el libro. Aunque la revelación plantea inmediatamente cuestiones de propiedad y protección de los derechos de autor , los principales intereses de los investigadores son la transparencia y la posibilidad de sesgos ocultos cuando quienes confían en OpenAI no saben qué fuentes se incluyeron y cuáles se excluyeron. Lista de los libros que ha usado ChatGPT para su base de datos ABC Otra consecuencia de la familiaridad del modelo con la ciencia ficción y la fantasía es que ChatGPT muestra un menor conocimiento de obras de otros géneros . Como observa el artículo, la herramienta sabe «poco sobre obras de habla inglesas de investigación, como el Black Book Interactive Project y ganadores de premios del Black Caucus American Library Association». A través de Twitter, David Bamman , uno de los coautores y profesor asociado de la Facultad de Información de la Universidad de Berkeley, advirtió que «los modelos abiertos son buenos, pero es probable que los textos populares no sean buenos barómetros de rendimiento . Con el sesgo hacia la ciencia ficción y fantasía, deberíamos pensar de quién son las experiencias narrativas codificadas en estos modelos, y cómo eso influye en otros comportamientos«. Código Desktop Takeaways: open models are good; popular texts are probably not good barometers of model performance; with the bias toward sci-fi/fantasy, we should be thinking about whose narrative experiences are encoded in these models, and how that influences other behaviors. 5/6— David Bamman (@dbamman)

May 2, 2023
Imagen para móvil, amp y app Código móvil Takeaways: open models are good; popular texts are probably not good barometers of model performance; with the bias toward sci-fi/fantasy, we should be thinking about whose narrative experiences are encoded in these models, and how that influences other behaviors. 5/6— David Bamman (@dbamman)

May 2, 2023
Código AMP Takeaways: open models are good; popular texts are probably not good barometers of model performance; with the bias toward sci-fi/fantasy, we should be thinking about whose narrative experiences are encoded in these models, and how that influences other behaviors. 5/6— David Bamman (@dbamman)

May 2, 2023
Código APP Takeaways: open models are good; popular texts are probably not good barometers of model performance; with the bias toward sci-fi/fantasy, we should be thinking about whose narrative experiences are encoded in these models, and how that influences other behaviors. 5/6— David Bamman (@dbamman)

May 2, 2023
Saber que OpenIA ha usado ficción para alimentar su herramienta, además de la lucha con los derechos de autor, pone en duda sí quizás es demasiado pronto para usar ChatGPT de manera profesional y no por divertimento. Casos de malos usos y fallos de la herramienta se suceden uno detrás de otro. Hace unos días, saltaron las alarmas porque un abogado usó ChatGPT para su uso laboral. El jurista presentó media docena de precedentes falsos generados por el sistema de inteligencia artificial para apoyarse en un caso. La máquina parlante se los había inventado. En abril, ‘The Washington Post’ informó sobre un caso en el que un profesor de derecho descubrió que el chat inteligente de OpenAI había generado información falsa, acusándolo incorrectamente de conducta sexual inapropiada.