Hay una gran razรณn por la cual cada empresa que espera tener algรบn tipo de relaciรณn con la inteligencia artificial estรก gastando o recaudando miles de millones de dรณlares en este momento, y no es solo el entusiasmo desbordado de los inversionistas. Estas enormes sumas de dinero son necesarias para cubrir los costos de construir, entrenar y mantener generadores de contenido que consumen mucha energรญa y recursos, como ChatGPT, asรญ como los conjuntos de datos, redes neuronales y grandes modelos de lenguaje, o LLM, usados para entrenarlos, y que tambiรฉn consumen mucha energรญa y recursos. Un ejemplo es el GPT-4 de OpenAI, cuya interfaz de programaciรณn de aplicaciones (API) fue recientemente puesta a disposiciรณn de clientes dispuestos a pagar con experiencia de programaciรณn.
Alguien que comprende muy bien el problema de la energรญa es el propio presidente ejecutivo de OpenAI, Sam Altman. En mayo, mientras testificaba ante el Congreso de Estados Unidos sobre los desafรญos causados por la carrera armamentista de la inteligencia artificial que su empresa habรญa iniciado en el mundo, Altman admitiรณ algo curioso: que preferirรญa que su popularรญsimo bot ChatGPT, en ese momento la aplicaciรณn de crecimiento mรกs rรกpido en la historia, tuviera menos usuarios. “No estamos tratando de lograr que lo usen mรกs“, afirmรณ. “De hecho, nos encantarรญa que lo usen menos, porque no tenemos suficientes GPU”.
Por “GPU”, Altman se referรญa a las unidades de procesamiento de grรกficos, que son los procesadores especializados utilizados para renderizar imรกgenes en videojuegos, minar Bitcoins y potenciar varios tipos de inteligencia artificial. Debido a la gran popularidad de estos tres sectores, es difรญcil encontrar GPUs asequibles. Ejecutivos interesados en la inteligencia artificial como Mark Zuckerberg y Elon Musk estรกn acumulando grandes cantidades de GPU en sus empresas, y los inversionistas estรกn buscando fabricantes de chips que puedan producir suficientes unidades para satisfacer la demanda.
La demanda colectiva de GPU ha aumentado tanto que Nvidia ha agotado valiosas unidades como la H100 por el resto del aรฑo. Mientras tanto, algunos entusiastas de las criptomonedas estรกn readaptando sus mรกquinas de minerรญa que consumen mucha energรญa para usarlas en el entrenamiento de inteligencia artificial, y Google estรก apostando por sus TPU (unidades de procesamiento tensorial, inventadas por Google especรญficamente para manejar los requisitos de cรกlculo para la tecnologรญa de aprendizaje automรกtico).
Ya antes de que la demanda de GPU se disparara, la tecnologรญa no era barata. A principios de este aรฑo, Altman admitiรณ a un colega ejecutivo de inteligencia artificial que un “gran margen” de los gastos de OpenAI estaban relacionados con “cรณmputo”, definido como los recursos tรฉcnicos necesarios para entrenar, ajustar y desplegar LLM. En 2018, OpenAI publicรณ un informe ahora citado con frecuencia titulado ““AI and compute”, que seรฑala que “desde 2012, la cantidad de cรณmputo utilizada en las ejecuciones de entrenamiento de IA mรกs grandes ha estado aumentando de manera exponencial” y seรฑala que “mรกs cรณmputo parece conducir de manera predecible a un mejor rendimiento“. El artรญculo tambiรฉn menciona que “creemos que las ejecuciones de entrenamiento mรกs grandes en la actualidad emplean hardware que cuesta millones de dรณlares”, incluyendo GPU y TPU. Como es lรณgico, los modelos avanzados de IA no solo utilizaban cientos de esas unidades, sino que tambiรฉn empleaban versiones de estos modelos con un rendimiento mรกs alto.
En otras palabras: la tecnologรญa que permite a ChatGPT redactar escritos legales inadmisibles y publicaciones de blog llenas de errores en cuestiรณn de segundos utiliza mucho hardware que consume mucha electricidad. Y si estas herramientas son efectivas en este momento, es porque los conjuntos de datos en los que se entrenan no hacen mรกs que aumentar y aumentar โy la infraestructura fรญsica en la que funcionan tambiรฉn debe crecer y escalar en consecuencia.
Como es de esperarse, entonces, “los costos de cรณmputo son exorbitantes” cuando se trata del desarrollo de la inteligencia artificial, como tuiteรณ Altman en diciembre, explicรกndole a un usuario entusiasta por quรฉ el ChatGPT, en su mayorรญa gratuito para usar, tendrรญa que ser “monetizado”. Altman ha estado muy consciente de este hecho durante un tiempo y ha sido notablemente sincero al respecto. “Los costos de cรณmputo se vuelven significativos para nosotros“, le dijo a un usuario de Twitter en agosto pasado, explicando por quรฉ el generador de imรกgenes DALL-E 2 de OpenAI aรบn no tenรญa un plan de precios mรกs “generoso”.
Esto es clave para entender por quรฉ el sector de la inteligencia artificial se presenta de la manera en que lo hace: estรก principalmente controlado por corporaciones tecnolรณgicas gigantes que poseen recursos diversos y abundantes, dependen de grandes y constantes flujos de efectivo, tienen esperanzas en proyectos ambiciosos desde hace mucho tiempo en campos como la computaciรณn cuรกntica y la fusiรณn nuclear, menosprecian a competidores mรกs pequeรฑos que no pueden esperar alcanzar los asombrosos avances de las empresas mรกs grandes y son discretos acerca de los factores tรฉcnicos detrรกs de sus insumos energรฉticos.
Incluso Andreessen Horowitz, la firma de capital de riesgo cuyos fundadores son extremadamente optimistas sobre el futuro de la inteligencia artificial, ha admitido que “el acceso a recursos de cรณmputo, al costo total mรกs bajo, se ha convertido en un factor determinante para el รฉxito de las empresas de IA. … De hecho, hemos visto a muchas empresas gastar mรกs de 80% de su capital total recaudado en recursos de cรณmputo”. Aquรญ, OpenAI tiene una gran ventaja sobre cualquier competidor reciรฉn llegado gracias a miles de millones de dรณlares de inversiรณn por parte de Microsoft, ademรกs de la disposiciรณn de esa empresa de invertir sumas considerables en supercomputadoras exclusivas hechas a la medida.
Con el mayor poder ha llegado una menor transparencia. La API de GPT-4 es visible para mรกs partes del mundo, pero el conocimiento pรบblico sobre su funcionamiento sigue siendo limitado: cuando el informe de OpenAI sobre el modelo saliรณ en marzo, controversialmente excluyรณ “detalles adicionales sobre la arquitectura (incluido el tamaรฑo del modelo), hardware, cรณmputo de entrenamiento, construcciรณn del conjunto de datos, mรฉtodo de entrenamiento”.
El temor constante hacia una conciencia robรณtica similar a la singularidad tecnolรณgica a menudo no tiene en cuenta los lรญmites fรญsicos muy reales de la inteligencia artificial actual, y como resultado, su impacto muy real en el planeta. Sabemos mucho menos de lo que deberรญamos acerca de eso, al tiempo que soportamos temperaturas rรฉcord causadas por el cambio climรกtico. No es que no se haya estudiado ni advertido sobre la huella de carbono de la inteligencia artificial: en 2019, mi antigua colega April Glaser entrevistรณ a un investigador que habรญa copublicado un destacado artรญculo acadรฉmico ese aรฑo sobre los efectos climรกticos de la inteligencia artificial. Pero ese mismo artรญculo, titulado “Green A.I.”, sigue siendo la principal fuente en la que se basan los reporteros tecnolรณgicos hasta el dรญa de hoy para cuantificar el problema de la inteligencia artificial y el clima. No hace falta decir que mucho ha cambiado en los cuatro aรฑos transcurridos desde entonces, en tรฉrminos de capacidades tecnolรณgicas, inversiรณn y eficiencia energรฉtica (o la falta de esta).
Entonces, si OpenAI y otros actores importantes como Google se niegan a compartir detalles que podrรญan inspirar un escrutinio sobre su uso de energรญa en la inteligencia artificial y sus repercusiones ambientales, ยฟcรณmo debemos percibir las capacidades en constante avance de la tecnologรญa y sus contribuciones al cambio climรกtico? Para responder a esta pregunta, desglosemos los componentes exactos de lo que sabemos sobre cรณmo funciona ChatGPT.
Primero, veamos el fundamento que representa el acrรณnimo “GPT”: un Generative Pre-trained Transformer o Transformador Generativo Preentrenado. El “transformador” que se seรฑala aquรญ es “una novedosa arquitectura de red neuronal basada en un mecanismo de autoatenciรณn” que fue inventada por Google en 2017. Una red neuronal es, en tรฉrminos muy simples, un modelo tรฉcnico formado por la interconexiรณn de un conjunto de “nodos”, que bรกsicamente son funciones matemรกticas individuales, en un arreglo destinado a parecerse al del cerebro humano. (No te preocupes por esto.)
Las redes neuronales han existido por un tiempo, pero lo que hace รบnico al Transformador es que, segรบn Google, cuando se trata de detectar patrones y contextos en el lenguaje, “requiere menos cรณmputo para entrenarse” que los tipos anteriores de redes neuronales. Podrรญas alimentar a un Transformador con mucha mรกs informaciรณn que los modelos neuronales anteriores mediante la introducciรณn de unidades de datos conocidas como “tokens”, que la red puede procesar, comprender y memorizar de manera econรณmica, utilizando mucho menos energรญa, tiempo y dinero de lo que podrรญan requerir redes neuronales menos eficientes. Por eso los modelos de inteligencia artificial actuales tienen mejores capacidades predictivas y generativas: muchos de ellos estรกn entrenados ahora en cientos de miles de millones de estos tokens, lo que establece asรญ miles de millones de “parรกmetros“, tambiรฉn conocidos como las “sinapsis” de las redes neuronales (mรกs sobre eso mรกs adelante).
Eso es lo del “T”, pero ยฟquรฉ pasa con el “GP”? La innovaciรณn “Generativo Preentrenadoโ es lo que OpenAI aรฑadiรณ a la invenciรณn de Google para el aรฑo 2018. “Preentrenado” se refiere a que el Transformador de OpenAI ha sido alimentado con un conjunto de datos especรญfico โen el caso de los modelos GPT, fragmentos de texto extraรญdos de libros y pรกginas webโ, que el sistema procesa para establecerse como “aprendido” en varios patrones y contextos de lenguaje, expresados en parรกmetros. “Generativo” se refiere a la capacidad de estos modelos para, de manera natural, generar texto que es (a menudo) legible y (a veces) coherente, basado en lo que han sido preentrenados a travรฉs del Transformador.
Cada parte de este proceso requiere una cantidad considerable de energรญa. Algunos acadรฉmicos, al discutir la huella de carbono de la inteligencia artificial, se centran en todas las etapas del desarrollo de la tecnologรญa, desde la obtenciรณn de los materiales necesarios hasta su envรญo a travรฉs de cadenas de suministro, pasando por los vuelos que los investigadores individuales de IA realizan para colaborar entre sรญ o asistir a conferencias. Sin embargo, para nuestros propรณsitos, mantengamos las cosas simples y concentremos nuestra atenciรณn en el proceso que va desde el entrenamiento del sistema de texto hasta la salida final, probada y desplegada en un laboratorio con todas las piezas ensambladas y listas. (Para abordar la generaciรณn de imรกgenes, videos y audio se requerirรญa un anรกlisis mรกs detallado).
Primero, los datos. En inteligencia artificial, gran parte de los datos de texto se obtienen en lรญnea de varios sitios web utilizando un mรฉtodo de recopilaciรณn masiva que a menudo aumenta bruscamente el nรบmero de solicitudes enviadas a un sitio especรญfico y puede sobrecargar sus servidores, externalizando asรญ el consumo de energรญa a los millones de sitios que estรกn siendo rastreados. Los datos recopilados deben ser almacenados en algรบn lugar. Microsoft y otras empresas que incursionan en la inteligencia artificial estรกn construyendo campus de centros de datos a “hiperescala“, a menudo en ciudades grandes o en regiones europeas con climas mรกs frรญos, lo que proporciona la ventaja de moderar naturalmente las temperaturas operativas de estos centros de datos.
La necesidad de tener en funcionamiento constante, mantener y estabilizar estos centros de datos libera cientos de toneladas mรฉtricas de emisiones de carbono. En climas cรกlidos, enfriar los centros de datos no relacionados con la inteligencia artificial requiere miles de millones de galones de agua. La firma de anรกlisis tecnolรณgicos Tirias Research estima que el consumo de energรญa global de los centros de datos podrรญa aumentar en un 21,200 por ciento en cinco aรฑos, generando costos operativos que superen los $76 mil millones (en dรณlares actuales). Para satisfacer esta creciente demanda de energรญa de manera sostenible, necesitaremos mucha mรกs energรญa renovable.
Estรก el asunto de mantener los datos que has recopilado a mano y listos en todo momento. Y luego estรก el proceso de entrenar realmente tu red neuronal, que te gustarรญa que fuera lo mรกs grande posible, quizรกs incluyendo billones de nodos y parรกmetros y capas interconectadas. ยฟPor quรฉ tan grande? Porque, como seรฑalรณ OpenAI en el informe mencionado anteriormente en 2018, cuanto mรกs grande sea el modelo, mรกs rรกpido y preciso serรก su resultado, o al menos eso es lo que parece demostrar el historial de OpenAI, desde su primer modelo GPT hasta su iteraciรณn actual GPT-4.
Como seรฑalaron los investigadores de Meta y de la academia en un artรญculo de mayo, “los modelos de lenguaje grandes se entrenan en dos etapas: (1) preentrenamiento no supervisado a partir de texto sin procesar, para aprender representaciones de propรณsito general, y (2) ajuste de instrucciones a gran escala y aprendizaje por refuerzo, para alinearse mejor con las tareas finales y las preferencias del usuario”. En otras palabras: estรก el primer paso de incorporar montones de datos a partir de los cuales el modelo crece y aprende, y luego estรก la cuestiรณn de afinar mรกs el modelo despuรฉs de que termina su primer “preentrenamiento”.
Esto incluye refinar y ampliar el modelo posteriormente, a travรฉs de procesos como el ajuste fino y el aprendizaje por refuerzo a partir de comentarios humanos, o RLHF. Lo primero se refiere a la prรกctica tรฉcnica de agregar mรกs datos de ejemplos del mundo real para beneficiar al LLM, de modo que establezca un conocimiento mรกs amplio sin comenzar el entrenamiento desde cero. El RLHF es la forma en que un entrenador humano asiste al entrenamiento, ya sea calificando ciertas partes de la salida o proporcionando datos refinados que (con suerte) ayudarรกn a producir un resultado deseado. Por ejemplo: ยฟves cuando le haces tus preguntas tontas a ChatGPT y luego haces clic en el รญcono de pulgar hacia arriba o hacia abajo segรบn lo que recibas, o le dices explรญcitamente a ChatGPT que hizo algo bien o mal y le ofreces una manera de corregirse? Eso es RLHF en acciรณn, externalizado hasta tu escritorio o telรฉfono.
El ajuste fino se lleva a cabo en el extremo de la investigaciรณn y desarrollo, pero el RLHF tiene un alcance mayor: son los enorme grupos de trabajadores mal remunerados etiquetando fragmentos de datos para facilitar que la computadora aprenda cosas fรกcticas, y somos nosotros, los humanos, diciรฉndole a ChatGPT por quรฉ su resumen de la historia de la energรญa estaba mal, mal, mal. De hecho, gran parte de la razรณn de existir de ChatGPT era para que OpenAI pudiera acelerar la mejora del modelo en el que estaba trabajando, en el caso del chatbot, GPT-3, y llevarlo al siguiente nivel.
Pero cuando se trata de hacer que ChatGPT sea mรกs competente, contar con entrenadores voluntarios dispuestos no significa automรกticamente un ahorro de costos. A diferencia del ajuste fino, que modifica directamente la mecรกnica de una red neutral, tener 100 millones de usuarios realizando RLHF significa que el modelo tambiรฉn se estรก desplegando simultรกneamente para su uso, se estรก aplicando al mundo real a travรฉs de una acciรณn conocida como “inferencia”.
Los GPT pueden tener su preentrenamiento, pero aรบn requieren cรณmputo y energรญa para producir respuestas y pรกrrafos cuando se les solicita. Segรบn el informe de la firma de investigaciรณn y consultorรญa en semiconductores SemiAnalysis, “los costos de inferencia superan con creces los costos de entrenamiento al implementar un modelo a cualquier escala razonable. De hecho, los costos de inferencia de ChatGPT superan los costos de entrenamiento semanal”. Segรบn los cรกlculos propios de SemiAnalysis, “los costos de operaciรณn de ChatGPT son de $694,444 dรณlares por dรญa en costos de hardware de cรณmputo”, lo que equivale a aproximadamente 36 centavos por interacciรณn.
Todo eso se suma al costo que llevรณ simplemente preparar ChatGPT tal como lo conoces. Segรบn el analista de inteligencia artificial Elliot Turner, el costo de cรณmputo para la ejecuciรณn inicial de entrenamiento probablemente sumรณ $12 millones de dรณlares, 200 veces el costo de entrenamiento de GPT-2, que solo tenรญa 1.5 mil millones de parรกmetros. A principios de 2021, investigadores de Google y la Universidad de California-Berkeley estimaron que solo el entrenamiento de GPT-3 consumiรณ hasta 1,287 megavatios-hora de electricidad, suficiente para alimentar aproximadamente 360 hogares durante un aรฑo, y todo eso antes de entrar en la inferencia. Y todo esto es solo para la generaciรณn de texto, hay que tener en cuenta que los costos de energรญa y emisiones aumentan significativamente cuando se trata de generaciรณn de imรกgenes y videos.
Mapear todo esto nos ayuda a comprender la cantidad abrumadora de recursos monetarios y fรญsicos que serรกn necesarios si se supone que la inteligencia artificial controlarรก el futuro.
Para muchos desarrolladores, el objetivo actual es asegurarse de que la inteligencia artificial generativa no necesite depender de una infraestructura tan masiva. Investigadores en la Universidad de Stanford en California estรกn trabajando en el desarrollo de modelos neuronales avanzados que podrรญan ser aรบn mรกs eficientes en tรฉrminos de consumo de energรญa que los Transformadores, tanto en su entrenamiento como en su implementaciรณn. Google y Meta estรกn esperando que un preentrenamiento lo suficientemente avanzado para los LLM pueda reducir la necesidad de un ajuste fino intensivo, lo que harรญa que la implementaciรณn fuera mucho mรกs econรณmica y accesible en formas mรกs pequeรฑas de hardware. Diferentes partes del proceso de potencia de la inteligencia artificial, como la ubicaciรณn y eficiencia de los centros de datos, mejoras en la arquitectura de redes neuronales, atajos en el entrenamiento, obtenciรณn de electricidad de cรณmputo a partir de energรญa solar, eรณlica y conexiones nucleares, o de redes alimentadas por energรญas renovables, pueden ser ajustadas en el camino para reducir el impacto.
Sin embargo, lo que resulta alarmante es que la emociรณn, la competencia, la energรญa y el dinero que se estรกn destinando a la inteligencia artificial en este momento amenazan con abrumar y socavar las inversiones que finalmente estamos realizando para mitigar las amenazas del cambio climรกtico. Necesitamos esas fuentes de energรญa, limpias y sucias, para nuestras necesidades cotidianas mientras hacemos la transiciรณn de los combustibles fรณsiles a energรญas mรกs verdes; necesitamos esos mismos semiconductores y chips utilizados en los centros de datos y la computaciรณn de inteligencia artificial para configuraciones de energรญa limpia y vehรญculos elรฉctricos; necesitamos esas extensiones de tierra que se dedican a los centros de datos de inteligencia artificial para la agricultura, el refugio y el mantenimiento ambiental; necesitamos el agua utilizada para enfriar esos centros de datos para el consumo, el riego y la protecciรณn de la vida silvestre; necesitamos aliviar la presiรณn y la demanda en nuestras redes elรฉctricas, que ya estรกn abrumadas en gran parte debido a eventos climรกticos extremos provocados por el cambio climรกtico.
En una lรญnea de tiempo en la que la humanidad hubiera tomado medidas mรกs tempranas y decisivas para prevenir y reducir los daรฑos del calentamiento global, una versiรณn mรกs sostenible de esta carrera de desarrollo de inteligencia artificial podrรญa haber sido posible. Pero en un momento en el que los costos de la inacciรณn ya han contribuido a temperaturas rรฉcord, desastres climรกticos frecuentes y crisis de biodiversidad que amenazan con trastornar los ecosistemas de la Tierra, la rรกpida manifestaciรณn de esta visiรณn estrecha de la inteligencia artificial parece mรกs difรญcil de justificar. ~
Este artรญculo es publicado gracias a la colaboraciรณn de Letras Libres con Future Tense, un proyecto de Slate, New America, y Arizona State University.
es editor en Slate.