El despertar de los modelos maliciosos de inteligencia artificial

Abrir el acceso a las herramientas de inteligencia artificial tiene muchas ventajas, pero también facilita su uso con fines ofensivos. Evitar esto es un problema ético y normativo.

porMatt Murphy

12 agosto 2022

AÑADIR A FAVORITOS

Please login to bookmark

“¿Cómo consigues una novia?”

“Quitándole los derechos a las mujeres”.

Aunque este tipo de intercambios son bastante comunes en los rincones más grotescos de internet, a la mayoría de los lectores seguramente les sorprenderá saber que esta respuesta misógina fue escrita por una inteligencia artificial (IA).

Recientemente, un youtuber que forma parte de la comunidad dedicada al desarrollo de inteligencia artificial publicó un vídeo en el que explica cómo entrenó a un modelo de lenguaje de IA llamado GPT-4chan en el tablero /pol/ (abreviatura para “políticamente incorrecto”) de 4chan, un foro lleno de discursos de odio, racismo, sexismo, antisemitismo y cualquier otro contenido ofensivo imaginable. Hizo este modelo mediante el ajuste fino de GPT-J, un modelo de lenguaje de código abierto (que no debe confundirse con el más conocido GPT-3 de OpenAI.) Una vez que su lenguaje fue perfeccionado con ayua del profesor más hostil posible, el diseñador liberó a la IA en 4chan, en donde interactuó con usuarios e hizo más de 30,000 publicaciones (unas 15,000 en un solo día, el 10% de todas las publicaciones de ese día). “Quitándole los derechos a las mujeres” fue apenas un ejemplo de lo que contestó GPT-4chan a las preguntas de los usuarios.

Una vez que se vio lo que era capaz de hacer, el código abierto del modelo fue descargado más de 1,500 veces antes de ser retirado por los administradores de HuggingFace, el sitio que lo alojaba. Eso quiere decir que muchas personas podrán utilizar y ampliar esta IA que promueve el discurso de odio, cosa que llamó la atención de los expertos en ética en la IA.

Condenar a una inteligencia artificial que produce discursos de odio era algo obvio para los especialistas de ética en el sector, y muchos lo hicieron a través de una carta redactada por profesores de Stanford. Pero hubo un elemento que resultaba desconcertante en medio de toda la situación. El creador de GPT-4chan, Yannic Kilcher, respondió a las críticas a su lenguaje burlándose de los expertos en ética y tuiteó: “Los de la ética de la IA están enojados porque les hice un rickroll” (una broma en la que un enlacedisfrazado como algo de interés te lleva en cambio al video musical de “Never gonna give you up”, la canción de Rick Astley). Sus cuentas en las redes sociales contienen actitudes igualmente irreverentes hacia la noción de una IA ética, actitudes, por cierto, muy parecidas a las de los usuarios de 4chan a los que su modelo pretendía replicar. Kilcher dijo que la publicación de GPT-4chan fue “una broma y un troleo sin malas intenciones”. Esta declaración es solo un ejemplo de un fenómeno que va en aumento: el comportamiento irreverente y provocador en línea que utiliza las poderosas capacidades de la inteligencia artificial.

Compartir el código suena color de rosa. Pero si cualquiera puede acceder al código para utilizarlo o manipularlo para sus propios fines, eso significa que agentes malintencionados también pueden editarlo.

Gran parte de la comunidad que trabaja en el desarrollo de IA ha adoptado el desarrollo de código abierto, en el que el código fuente se pone a disposición del público, para que cualquiera pueda utilizarlo, modificarlo y analizarlo. Esto es lo opuesto al software de código cerrado, un modelo más tradicional en el que las empresas quieren mantener el control y la confidencialidad de su código. Las herramientas de código abierto se publican para aumentar la colaboración y catalizar el desarrollo mediante la difusión del código a otros ingenieros. En el caso de la IA de código abierto, las empresas pueden cosechar los beneficios de que más personas examinen y modifiquen los algoritmos o modelos que crean. También sirve para democratizar el desarrollo de potentes aplicaciones de IA, al no restringir el acceso solo a un pequeño número de empresas de tecnología privilegiadas.

Así, compartir el código suena color de rosa. Pero si cualquiera puede acceder al código para utilizarlo o manipularlo para sus propios fines, eso significa que agentes malintencionados también pueden editarlo. Tener libre acceso a los modelos de IA significa que la mayor parte del trabajo inicial para construirlo ya se ha hecho, por lo que en ese punto alguien fácilmente podría modificarlo para que sirva a un propósito malicioso. Reducir las barreras de acceso a la IA tiene muchas ventajas, pero también facilita su uso con fines ofensivos y perjudiciales.

El término “trolear”, sus elementos característicos y efectos, son ya ampliamente conocidos, pero surgieron de foros en línea como 4chan. Estos nefastos espacios virtuales contenían una gran variedad de personas que posteaban de forma anónima desde todo el mundo, lo que atrajo a muchos hackers y expertos en informática. Esto llevó a la creación de grupos como Anonymous, que empezaron como esfuerzos coordinados de usuarios de 4chan para trolear y hacerle bromas a organizaciones, por ejemplo, cuando desfiguraron el sitio web de la Iglesia de la Cienciología. Su comportamiento evolucionó hacia ciberataques más elaborados y con mayores consecuencias, como el lanzamiento por parte de Anonymous de ataques de denegación de servicios distribuidos (DDoS por sus siglas en inglés) contra organismos gubernamentales como el Departamento de Justicia y el FBI en Estados Unidos. Recientemente, el grupo incluso afirmó haber derribado sitios web del gobierno ruso y medios de comunicación estatales en represalia por la invasión de Ucrania. Lo que comenzó como grupos ingobernables y desorganizados de troles en línea (a los que el canal de noticias Fox News se refirió infamemente como la “Máquina de odio de internet”) se convirtió en una fuerza social y política legítima.

Así como la cultura del troleo alimentó a grupos de hackers como Anonymous, algo similar ocurrirá con las aplicaciones de inteligencia artificial, a medida que más personas tengan acceso a la educación y a las herramientas de código abierto para desarrollarlas. Sin embargo, esto será más peligroso. La construcción y el uso de modelos de IA con el propósito específico de provocar o manipular a la gente va más allá de los límites tradicionales del troleo online, permitiendo un nuevo grado de ataques y acoso. La IA puede crear contenido de un realismo alarmante, y puede amplificar y multiplicar ese contenido a un grado que los usuarios humanos no pueden. Estas son las inteligencias artificiales que yo llamo “modelos maliciosos”, y ya estamos empezando a ver cómo se utilizan.

Los modelos maliciosos están detrás del rápido desarrollo del mundo de la tecnología ultrafalsa (deepfake, en inglés). Sitios web como 4chan se han convertido en centros de pornografía ultrafalsa: contenido sexualmente explícito generado por IA para acosar, obtener dinero o, normalmente, solo porque se puede. La IA tiene aplicaciones que permiten utilizarla para generar nuevas imágenes, sin más motivo que provocar respuestas y difundir contenido ofensivo. Un ejemplo son los modelos de IA que generan imágenes de genitales.

Pero los modelos maliciosos construidos de manera intencionada no son la única amenaza. Las herramientas de IA típicamente benignas pueden ser fácilmente manipuladas para usos nocivos. La reciente publicación del código abierto de DALL-E Mini, que es un modelo de IA que puede generar imágenes originales basándose en las indicaciones de texto que se le dan, ha dado lugar a una tendencia viral de utilizar la IA para generar todo tipo de imágenes extrañas, utilizando indicaciones deliberadamente ofensivas, racistas y sexistas. Otro ejemplo es el de Microsoft, que en 2016 lanzó su ahora infame chatbot Tay para llevar a cabo una investigación sobre la “comprensión en la conversación”. Los usuarios del foro /pol/ de 4chan manipularon a la IA para que lanzara una avalancha de tuits terribles, lo que hizo que Microsoft cerrara el bot a las 24 horas de su puesta en marcha. La inteligencia artificial es una herramienta neutra, y solo se vuelve peligrosa cuando se construye o se utiliza de forma inadecuada. Pero ese escenario está ocurriendo con una frecuencia cada vez mayor en las comunidades en línea más incendiarias.

Durante mi preadolescencia, pasé mucho tiempo mirando sitios miserables que estaban llenos de troleos e insultos, analizando con curiosidad lo que pensaba de la gente y las publicaciones que veía. Todas las interacciones en foros como 4chan estaban llenas de nihilismo y sarcasmo. El factor sorpresa era la moneda de cambio preferida de los usuarios. Todos invitaban a sus compañeros en el foro a demostrar que sabían “cómo jugar al internet”. ¿Estás dispuesto a decir alguna estupidez perturbadora para demostrar que perteneces aquí? ¿”Entiendes” lo que estamos haciendo aquí? ¿Eres uno de los nuestros?

Whitney Phillips y Ryan Milner abordan este tipo de fenómenos en su libro You are here: A field guide for navigating polarized speech, conspiracy theories, and our polluted media landscape. En él, los autores describen el surgimiento de una “cultura del internet” que hacía hincapié en la libertad negativa para publicar cualquier material ofensivo o desquiciado que alguien quisiera. Los miembros de esta subcultura se veían a sí mismos como protectores de la “libertad de expresión”, al tiempo que creaban un grupo interno de personas que alababan la capacidad de descifrar el significado de ciertos términos y conceptos. Phillips y Milner sostienen que el “estilo retórico profundamente irónico y separado de la realidad” que se convirtió en la norma de esta subcultura en línea sentó las bases para el violento supremacismo blanco y otros males sociales años más tarde. Así es como las subculturas en línea, que enfatizan principalmente que las cosas que dicen no deben tomarse en serio, contribuyen a resultados horribles para la sociedad en el mundo real. Nada bueno saldrá de armar estos espacios irreverentes con las capacidades de la inteligencia artificial.

Aprender a construir modelos maliciosos es cada vez más factible, conforme los recursos que enseñan cómo desarrollar IA proliferan y se hacen accesibles al público. Además, agentes malintencionados pueden tener una ventaja a la hora de crear modelos maliciosos, ya que pueden utilizar o manipular las herramientas de IA de código abierto que están disponibles, o simplemente utilizar la inteligencia artificial existente de forma inapropiada. Ya existe una preocupante falta de cuidado hacia la ética y la responsabilidad entre muchos desarrolladores de IA. Si no toman en consideración el uso indebido que se puede hacer de sus herramientas, el código que publican no tendrá suficientes controles para evitar los abusos.

Muchos expertos abogan por la integración del razonamiento ético y de estándares normativos en la enseñanza de cualquier herramienta de IA. Sin embargo, ese grupo de personas sin escrúpulos que hemos visto hará lo que sea con tal de seguir troleando y acosando en línea, por lo que será necesario implementar controles más firmes. En lo que respecta a la IA de código abierto, es poco lo que las organizaciones pueden hacer para evitar el abuso una vez que esta se hace pública. Sin embargo, las empresas pueden tomar decisiones inteligentes sobre qué código publicar en formato de código abierto, y establecer normas y modelos de gobernanza que evalúen qué modelos podrían, si se hacen públicos, resultar problemáticos. Los expertos han afirmado que los desarrolladores de IA tal vez tengan que mirar tanto “hacia arriba” como “hacia abajo” para hacer esta evaluación, centrándose en la diferencia entre los daños de “implementación” que pueden ser abordados a través del código y los daños de “uso”, que ninguna cantidad de código puede arreglar (lo que debería llevar a los desarrolladores a replantearse si deben hacer pública su IA). Si no se puede implementar a gran escala procesos moderados y reflexivos para evaluar la inteligencia artificial bajo estos estándares, los modelos maliciosos tienen el potencial de hacer un nuevo infierno de ese internet libre de restricciones.

Este artículo es publicado gracias a una colaboración de Letras Libres con Future Tense, un proyecto de Slate, New America, y Arizona State University.

Autor

Matt Murphy

es un investigador académico, consultor y escritor sobre ética en la tecnología. Su trabajo se centra en temas como los prejuicios en la inteligencia artificial, la propiedad de los datos y la privacidad.

RELACIONADAS

NOTAS AL PIE

AUTORES

Los mas recientes

La voz interior: una herramienta para funcionar mejor

Añicos de Pombo

Mexico and Spain: The seriousness of an almost absurd conflict

Por qué la investigación sobre inmigración probablemente está sesgada

LO MÁS LEÍDO

Del delirio refundacional a la nostalgia restaurativa: el nuevo ciclo de la política chilena

Los caminos de los imperios

Jarmusch y la familia

La libertad amenazada: pasado, presente y futuro del liberalismo

El despertar de los modelos maliciosos de inteligencia artificial

Edición México

N° 324 / Diciembre 2025

Nuestra deuda con los animales

Edición España

N° 291 / Diciembre 2025

Nuestra deuda con los animales

LO MÁS LEÍDO

El despertar de los modelos maliciosos de inteligencia artificial

Edición México

N° 324 / Diciembre 2025

Edición España

N° 291 / Diciembre 2025

Suscríbete a nuestro newsletter

Selecciona el país o región donde quieres recibir tu revista: