Wikipedia sobrevivirá a la inteligencia artificial

Los rumores sobre la inminente "muerte de Wikipedia" a manos de la inteligencia artificial generativa están enormemente exagerados.

Por Stephen Harrison

8 septiembre 2023

AÑADIR A FAVORITOS

ClosePlease loginn

Wikipedia es, hasta la fecha, la obra de referencia más grande y leída en la historia humana. Pero los editores que la actualizan y mantienen no son complacientes respecto a su lugar como la principal fuente de información, y están preocupados por cómo podría ser desplazada por la inteligencia artificial generativa. En la última Wikimania, la conferencia anual de usuarios del sitio, una de las sesiones fue “ChatGPT vs. WikiGPT”, y un panelista en el evento mencionó que, en lugar de visitar Wikipedia, parece que la gente está recurriendo a ChatGPT para sus necesidades de información. Los veteranos de Wikipedia han planteado a ChatGPT como una amenaza existencial, prediciendo que los chatbots de inteligencia artificial desplazarán a Wikipedia de la misma manera en que Wikipedia desplazó a la Encyclopedia Britannica en 2005.

Pero me parece que los rumores sobre la inminente “muerte de Wikipedia” a manos de la inteligencia artificial generativa están enormemente exagerados. Sin duda, la implementación de la tecnología de IA alterará la manera en que se utiliza Wikipedia y transformará la experiencia del usuario. Al mismo tiempo, las características y problemas de los grandes modelos de lenguaje, como ChatGPT, se intersectan con los intereses humanos de maneras que protegen a Wikipedia en lugar de amenazarla.

Para ponerlo en contexto, ha habido elementos de inteligencia artificial y aprendizaje automático en Wikipedia desde 2002. Los bots automatizados en Wikipedia deben ser aprobados, según lo establecido en la política de bots, y generalmente deben ser supervisados por un ser humano. La revisión de contenido es asistida por bots como ClueBot NG, que identifica el uso de groserías y la puntuación no enciclopédica, como “!!!11”. Otro caso de uso es la traducción automática, que ha ayudado a proporcionar contenido para las 334 versiones en diferentes idiomas de la enciclopedia, lo que se hace, de nuevo, generalmente bajo supervisión humana. “Al final del día, los wikipedistas son realmente muy prácticos, esa es la característica fundamental”, dijo Chris Albon, director de aprendizaje automático en la Fundación Wikimedia, la organización sin fines de lucro que respalda el proyecto. “Han estado utilizando la IA y el aprendizaje automático desde 2002 porque sencillamente ahorra tiempo de maneras que les resultan útiles”.

En otras palabras, los bots son algo común en Wikipedia; son los LLM (modelos de lenguaje de gran tamaño, por sus siglas en inglés) externos los que presentan nuevos desafíos. A principios de este año, informé que los wikipedistas estaban lidiando con el entonces nuevo ChatGPT y decidiendo si el contenido generado por chatbots debería ser utilizado en el proceso de redacción de artículos de Wikipedia. En ese momento, los editores estaban comprensiblemente preocupados porque los LLM a veces alucinan, respondiendo a las solicitudes con invenciones completas acompañadas de citas falsas. Existe un riesgo real de que los usuarios que copien texto de ChatGPT en Wikipedia puedan contaminar el proyecto con desinformación. Sin embargo, una prohibición total de la inteligencia artificial generativa parecía tanto demasiado severa como demasiado ludita, un fracaso añ reconocer nuevas formas de trabajo. Algunos editores han informado que las respuestas de ChatGPT fueron útiles como punto de partida o esquema básico. Si bien prohibir la IA generativa podría mantener fuera de Wikipedia contenido de baja calidad generado por ChatGPT, también podría limitar la productividad de los editores humanos.

En la actualidad, los wikipedistas están elaborando una política sobre cómo se pueden usar los LLM en el proyecto. Lo que se está discutiendo es esencialmente un marco de “cuidar y declarar”: el editor humano debe revelar en el historial de edición público de un artículo que se utilizó un LLM y debe asumir la responsabilidad personal de verificar el contenido generado por el LLM y garantizar su precisión. Vale la pena señalar que la política propuesta para los LLM es muy similar a la que aplica para la mayoría de los bots de Wikipedia, que requieren cierta supervisión humana. Tienes que amarrar a tus bots, tus perros y ahora tus LLM.

Para ser claros, la comunidad de Wikipedia tiene jurisdicción sobre el modo en que sus editores utilizan los bots, pero no sobre cómo agentes externos están utilizando Wikipedia. Las empresas de inteligencia artificial generativa están aprovechando la licencia abierta de la enciclopedia en línea. Hasta ahora, todos los modelos de lenguaje a gran escala han sido entrenados con el contenido de Wikipedia, y el sitio es casi siempre la fuente más grande de datos de entrenamiento dentro de sus conjuntos de datos.

A pesar de haber asimilado todo el corpus de Wikipedia, ChatGPT no es el tipo de robot educado que agradece cortésmente a Wikipedia cuando utiliza esa información en sus respuestas. Por el contrario, el chatbot generalmente no revela sus fuentes. Los críticos están abogando por una mayor transparencia y recomiendan moderación hasta que los chatbots se conviertan en sistemas de inteligencia artificial explicables.

Por supuesto, existe una razón preocupante por la cual los modelos de lenguaje a gran escala generalmente no atribuyen créditos a sus fuentes: la inteligencia artificial no siempre sabe cómo ha llegado a su respuesta. Disculpen el símil grotesco, pero la base de conocimientos de un LLM típico es como una enorme bola de pelo; el LLM puede extraer fragmentos de Wikipedia, Tumblr, Reddit y una variedad de otras fuentes sin distinguir entre ellas. Y el LLM está básicamente programado únicamente para predecir la siguiente frase, no para proporcionar créditos cuando corresponda.

Los periodistas en particular parecen estar muy preocupados por el hecho de que ChatGPT no reconoce a Wikipedia en sus respuestas. La The New York Times Magazine publicó un artículo el mes pasado sobre cómo la reutilización de información de Wikipedia por parte de la inteligencia artificial pone en peligro la salud de Wikipedia y hace que la gente olvide su importante papel tras bastidores.

Pero tengo la sensación de que la mayoría de los colaboradores de Wikipedia están menos preocupados por reclamar créditos que el periodista promedio. Para empezar, los wikipedistas están acostumbrados a esto: después de todo, antes de los modelos de lenguaje a gran escala, Siri y Alexa ya obtenían información de Wikipedia sin dar crédito. (Hasta la fecha de publicación, estos asistentes inteligentes han sido actualizados para mencionar algo como “obtenido de Wikipedia”). Lo que es más fundamental es que siempre ha existido un elemento altruista en la curación de información para Wikipedia: las personas agregan conocimiento al sitio esperando que todos los demás lo utilicen como deseen.

En lugar de socavar el ánimo de los voluntarios humanos de Wikipedia, la inteligencia artificial generativa podría agregar una nueva razón a la lista de sus motivaciones: un sincero deseo de entrenar a los robots. Esta es también una razón por la cual las empresas de inteligencia artificial generativa como OpenAI deberían preocuparse por mantener el papel de Wikipedia como tutor principal de ChatGPT. Es importante que Wikipedia siga siendo una fuente de conocimiento escrita por humanos. Ahora sabemos que el contenido generado por LLM es como veneno para el entrenamiento de LLM: si los datos de entrenamiento no son creados por humanos, entonces los LLM se vuelven más tontos. Los LLM que consumen en exceso sus propias creaciones son propensos al colapso del modelo, un síntoma de la maldición de la recursión.

Como lo expresó Selena Deckelmann, la directora de productos y tecnología de la Fundación Wikimedia: “las compañías de inteligencia artificial generativa en el mundo necesitan encontrar la manera de mantener sostenibles y en crecimiento las fuentes de contenido humano original, el elemento más crítico de nuestro sistema de información”. Este interés mutuo es quizá la razón por la cual Google.org, la Fundación Musk, Facebook y Amazon se encuentran entre los benefactores que han donado más de un millón de dólares al Fondo Wikimedia: parece que las compañías de inteligencia artificial han comprendido que mantener a Wikipedia como un proyecto creado por humanos es de su interés. (Para mayor contexto, la fundación se sostiene principalmente gracias a numerosas donaciones pequeñas de lectores y seguidores comunes de Wikipedia, lo que resulta reconfortante para aquellos de nosotros que nos preocupamos por que una gran empresa tecnológica adquiera demasiada influencia sobre la dirección de esta organización sin fines de lucro.)

Las debilidades de los chatbots de inteligencia artificial también podrían popularizar nuevos casos de uso para Wikipedia. En julio, la Fundación Wikimedia lanzó un nuevo complemento de Wikipedia para ChatGPT que permite a ChatGPT buscar y resumir la información más actualizada en Wikipedia para responder preguntas de conocimiento general. Por ejemplo, si le preguntas a ChatGPT 3.5 en su forma estándar sobre el juicio contra Donald Trump, el chatbot dice que no sabe nada al respecto, porque solo está entrenado en información de internet hasta septiembre de 2021. Pero con el nuevo complemento, el chatbot resume con precisión los eventos actuales. Se puede observar que en este ejemplo Wikipedia funciona de manera similar a un filtro de agua: se pone en la salida del LLM crudo, eliminando inexactitudes y actualizando el contenido.

Ya sea que Wikipedia se incorpore a la inteligencia artificial a través de los datos de entrenamiento o como un complemento, está claro que es importante mantener el interés de los humanos en la curación de información para el sitio. Albon me habló de varias propuestas para aprovechar los LLM y hacer que el proceso de edición sea más agradable. Una idea propuesta por la comunidad es permitir que los LLM resuman los largos debates en las páginas de discusión, los espacios no relacionados con artículos donde los editores profundizan en las políticas del sitio. Dado que Wikipedia tiene más de 20 años, algunos de estos artículos son ahora más extensos que Guerra y paz. Pocas personas tienen tiempo para revisar todas las discusiones que han tenido lugar desde 2005 en torno a qué califica como una fuente confiable para Wikipedia, y mucho menos las fuentes perennes. En lugar de esperar que los nuevos colaboradores revisen discusiones que abarcan varios años, el LLM podría simplemente resumirlas en la parte superior. “La razón por la que esto es importante es para atraer a nuevos editores, para que no sea tan abrumador”, dijo Albon.

John Samuel, profesor asistente de informática en CPE Lyon, en Francia, me comentó que los posibles editores de Wikipedia a los que ha reclutado a menudo encuentran difícil comenzar. Encontrar fuentes confiables para usar en un artículo puede ser muy laborioso, y la Generación Z ha perdido la paciencia con la tarea de revisar los resultados de búsqueda de Google. Un internet que se ha inundado de contenido generado por máquinas hará que el proceso de encontrar fuentes de calidad sea aún más complicado.

Pero Samuel visualiza un futuro esperanzador en el que Wikipedia haya integrado alguna tecnología de inteligencia artificial que ayude a los editores humanos a encontrar fuentes de calidad y que verifique que las fuentes subyacentes realmente respalden lo que afirma el humano. “No podemos retrasar las cosas. Tenemos que pensar en integrar las nuevas herramientas basadas en inteligencia artificial para ahorrar tiempo a los colaboradores”, dijo Samuel.

Si hay un tema común que recorre el discurso pesimista sobre la inteligencia artificial, es que la IA va a quitar empleos a las personas. ¿Y qué pasa con el “empleo” de los editores voluntarios de Wikipedia? La respuesta es matizada. Por un lado, es probable que muchas tareas repetitivas (como agregar categorías de artículos, formateo básico, resúmenes sencillos) sean automatizadas. Por otro lado, el trabajo de las personas que editan Wikipedia nunca ha estado realmente centrado en escribir texto en sí. El trabajo más importante siempre ha implicado discusiones entre miembros de la comunidad, debates sobre si una fuente es más confiable que otra, argumentos sobre si la redacción es representativa o engañosa, y tratar de colaborar con el objetivo compartido de mejorar la enciclopedia. Entonces, quizás ese sea el camino hacia el futuro para Wikipedia: dejar el trabajo tedioso y repetitivo para la IA, pero mantener las conversaciones y los desacuerdos, esa parte desordenada y significativa de la construcción de consenso, para los seres humanos. ~

Este artículo es publicado gracias a la colaboración de Letras Libres con Future Tense, un proyecto de Slate, New America, y Arizona State University.